Spelling suggestions: "subject:"aprendizado profundo"" "subject:"aprendizado profundos""
51 |
[pt] APLICAÇÕES DE APRENDIZADO PROFUNDO NO MONITORAMENTO DE CULTURAS: CLASSIFICAÇÃO DE TIPO, SAÚDE E AMADURECIMENTO DE CULTURAS / [en] APPLICATIONS OF DEEP LEARNING FOR CROP MONITORING: CLASSIFICATION OF CROP TYPE, HEALTH AND MATURITYGABRIEL LINS TENORIO 18 May 2020 (has links)
[pt] A eficiência de culturas pode ser aprimorada monitorando-se suas condições de forma contínua e tomando-se decisões baseadas em suas análises. Os dados para análise podem ser obtidos através de sensores de imagens e o processo de monitoramento pode ser automatizado utilizando-se algoritmos de reconhecimento de imagem com diferentes níveis de complexidade. Alguns dos algoritmos de maior êxito estão relacionados a abordagens supervisionadas de aprendizagem profunda (Deep Learning) as quais utilizam formas de Redes Neurais de Convolucionais (CNNs). Nesta dissertação de mestrado, empregaram-se modelos de aprendizagem profunda supervisionados para classificação, regressão, detecção de objetos e segmentação semântica em tarefas de monitoramento de culturas, utilizando-se amostras de imagens obtidas através de três níveis distintos: Satélites, Veículos Aéreos Não Tripulados (UAVs) e Robôs Terrestres Móveis (MLRs). Ambos satélites e UAVs envolvem o uso de imagens multiespectrais. Para o primeiro nível, implementou-se um modelo CNN baseado em Transfer Learning para a classificação de espécies vegetativas. Aprimorou-se o desempenho de aprendizagem do transfer learning através de um método de análise estatística recentemente proposto. Na sequência, para o segundo nível, implementou-se um algoritmo segmentação semântica multitarefa para a detecção de lavouras de cana-de-açúcar e identificação de seus estados (por exemplo, saúde e idade da cultura). O algoritmo também detecta a vegetação ao redor das lavouras, sendo relevante na busca por ervas daninhas. No terceiro nível, implementou-se um algoritmo Single Shot Multibox Detector para detecção de cachos de tomate. De forma a avaliar o estado dos cachos, utilizaram-se duas abordagens diferentes: uma implementação baseada em segmentação de imagens e uma CNN supervisionada adaptada para cálculos de regressão
capaz de estimar a maturação dos cachos de tomate. De forma a quantificar cachos de tomate em vídeos para diferentes estágios de maturação, empregou-se uma implementação de Região de Interesse e propôs-se um sistema de rastreamento o qual utiliza informações temporais. Para todos os
três níveis, apresentaram-se soluções e resultados os quais superam as linhas de base do estado da arte. / [en] Crop efficiency can be improved by continually monitoring their state and making decisions based on their analysis. The data for analysis can be obtained through images sensors and the monitoring process can be automated by using image recognition algorithms with different levels of complexity. Some of the most successful algorithms are related to supervised Deep Learning approaches which use a form of Convolutional Neural Networks (CNNs). In this master s dissertation, we employ supervised deep learning models for classification, regression, object detection, and semantic segmentation in crop monitoring tasks, using image samples obtained through three different levels: Satellites, Unmanned Aerial Vehicles (UAVs) and Unmanned Ground Vehicles (UGVs). Both satellites and UAVs levels involve the use of multispectral images. For the first level, we implement a CNN model based on transfer learning to classify vegetative species. We also improve the transfer learning performance by a newly proposed statistical analysis method. Next, for the second level, we implement a multi-task semantic segmentation algorithm to detect sugarcane crops and infer their state (e.g. crop health and age). The algorithm also detects the surrounding vegetation, being relevant in the search for weeds. In the third level, we implement a Single Shot Multibox detector algorithm to detect tomato clusters. To evaluate the cluster s state, we use two different approaches: an implementation based on image segmentation and a supervised CNN regressor capable of estimating their maturity. In order to quantify the tomato clusters in videos at different maturation stages, we employ a Region of Interest implementation and also a proposed tracking system which uses temporal information. For all the three levels, we present solutions and results that outperform state-of-the art baselines.
|
52 |
[en] DISCRIMINATION OF PORES AND CRACKS IN IRON ORE PELLETS USING DEEP LEARNING NEURAL NETWORKS / [pt] DISCRIMINAÇÃO DE POROS E TRINCAS EM PELOTAS DE MINÉRIO DE FERRO UTILIZANDO REDES NEURAISEMANUELLA TARCIANA VICENTE BEZERRA 20 May 2021 (has links)
[pt] O processo de formação de pelotas de minério de ferro consiste na preparação das matérias-primas, formação da pelota crua e endurecimento por meio da queima. O produto final deve ser um material poroso que permita a difusão de gases no forno de redução e que, simultaneamente, resista a compressão, característica relevante durante o transporte e no carregamento do forno. No entanto, durante o tratamento térmico e o transporte podem surgir trincas que comprometem a integridade das pelotas. A discriminação de poros e trincas é, portanto, um importante fator para a análise microestrutural e controle de qualidade do material. A microtomografia de raios-x é uma técnica não destrutiva que gera imagens tridimensionais, o que permite uma visualização completa da pelota. No entanto, a metodologia usual de processamento digital de imagens, baseada em extração de atributos de tamanho e forma, apresenta limitações para discriminar poros de trincas. Redes Neurais Deep Learning são uma alternativa poderosa para classificar tipos de objetos em imagens, utilizando como entrada as intensidades dos pixels e atributos automaticamente determinados pela rede. Após treinar um modelo com os padrões correspondente a cada classe, é possível atribuir cada pixel da imagem a uma das classes presentes, permitindo uma segmentação semântica. Nesta dissertação, otimizou-se uma rede Deep Learning com arquitetura U-Net, usando como conjunto de treinamento poucas camadas 2D da imagem 3D original. Aplicando o modelo à pelota utilizada no treinamento foi possível discriminar poros de trincas de forma adequada. A aplicação do modelo a outras pelotas exigiu a incorporação de camadas destas pelotas ao treinamento e otimização de parâmetros do modelo. Os resultados apresentaram classificação adequada, apesar de apresentar dificuldades de criar um modelo geral para discriminação entre poros e trincas em pelotas de minério de ferro. / [en] The iron ore pellet forming process consists of preparing the raw materials, forming the raw pellet and hardening by firing. The end product must be a porous material which allows gas to diffuse in the blast furnace and at the same time resists compression, which is a relevant feature during transport and loading of the furnace. However, during heat treatment and transport cracks may appear that compromise the integrity of the pellets. The discrimination of pores and cracks is therefore an important factor for microstructural analysis and material quality control. X-ray microtomography is a non-destructive technique that generates three-dimensional images, allowing a full view of the pellet. However, the usual methodology of digital image processing, based on extraction of size and shape attributes, has limitations to discriminate crack from pores. Deep Learning Neural Networks are a powerful alternative to classifying object types in images, using as input the pixel intensities and attributes automatically determined by the network. After training a model with the patterns corresponding to each class, it is possible to assign each pixel of the image to one of the classes present, allowing a semantic segmentation. In this dissertation, a Deep Learning network with U-Net architecture was optimized, using as a training set a few 2D layers of the original 3D image. Applying the model to the pellet used in training it was possible to discriminate cracks pores properly. Application of the model to other pellets required the incorporation of layers of these pellets into the training and optimization of model parameters. The results were adequately classified, despite the difficulty of creating a general model for discrimination between pores and cracks in iron ore pellets.
|
53 |
[pt] DESENVOLVIMENTO DE UMA METODOLOGIA PARA CARACTERIZAÇÃO DE FASES NO PELLET FEED UTILIZANDO MICROSCOPIA DIGITAL E APRENDIZAGEM PROFUNDA / [en] DEVELOPMENT OF A METHODOLOGY FOR PHASE CHARACTERIZATION IN PELLET FEED USING DIGITAL MICROSCOPY AND DEEP LEARNINGTHALITA DIAS PINHEIRO CALDAS 09 November 2023 (has links)
[pt] O minério de ferro é encontrado na natureza como agregado de minerais,
dentre os principais minerais presentes em sua composição estão: hematita,
magnetita, goethita e quartzo. Dada a importância do minério de ferro para a
indústria, há um crescente interesse por sua caracterização com o objetivo de avaliar
a qualidade do material. Com o avanço de pesquisas na área de análise de imagens
e microscopia, rotinas de caracterização foram desenvolvidas utilizando
ferramentas de Microscopia Digital e Processamento e Análise Digital de Imagens
capazes de automatizar grande parte do processo. Porém esbarrava-se em algumas
dificuldades, como por exemplo identificar e classificar as diferentes texturas das
partículas de hematita, as diferentes formas de seus cristais ou discriminar quartzo
e resina em imagens de microscopia ótica de luz refletida. Desta forma, a partir da
necessidade de se construir sistemas capazes de aprender e se adaptar a possíveis
variações das imagens deste material, surgiu a possibilidade de estudar a utilização
de ferramentas de Deep Learning para esta função. Este trabalho propõe o
desenvolvimento de uma nova metodologia de caracterização mineral baseada em
Deep Learning utilizando o algoritmo Mask R-CNN. Através do qual é possível
realizar segmentação de instâncias, ou seja, desenvolver sistemas capazes de
identificar, classificar e segmentar objetos nas imagens. Neste trabalho, foram
desenvolvidos dois modelos: Modelo 1 que realiza segmentação de instâncias para
as classes compacta, porosa, martita e goethita em imagens obtidas em Campo
Claro e o Modelo 2 que utiliza imagens adquiridas em Luz Polarizada
Circularmente para segmentar as classes monocristalina, policristalina e martita.
Para o Modelo 1 foi obtido F1-score em torno de 80 por cento e para o Modelo 2 em torno
de 90 por cento. A partir da segmentação das classes foi possível extrair atributos
importantes de cada partícula, como distribuição de quantidade, medidas de forma,
tamanho e fração de área. Os resultados obtidos foram muito promissores e indicam
que a metodologia desenvolvida pode ser viável para tal caracterização. / [en] Iron ore is found in nature as an aggregate of minerals. Among the main
minerals in its composition are hematite, magnetite, goethite, and quartz. Given the
importance of iron ore for the industry, there is a growing interest in its
characterization to assess the material s quality. With the advancement of image
analysis and microscopy research, characterization routines were developed using
Digital Microscopy and Digital Image Processing and Analysis tools capable of
automating a large part of the process. However, it encountered some difficulties,
such as identifying and classifying the different textures of hematite particles, the
different shapes of its crystals, or discriminating between quartz and resin in optical
microscopy images of reflected light. Therefore, from the need to build systems
capable of learning and adapting to possible variations of the images of this
material, the possibility of studying the use of Deep Learning tools for this function
arose. This work proposes developing a new mineral characterization methodology
based on Deep Learning using the Mask R-CNN algorithm. Through this, it is
possible to perform instance segmentation, that is, to develop systems capable of
identifying, classifying, and segmenting objects in images. In this work, two models
were developed: Model 1 performs segmentation of instances for the compact,
porous, martite, and goethite classes in images obtained in Bright Field, and Model
2 uses images acquired in Circularly Polarized Light to segment the classes
monocrystalline, polycrystalline and martite. For Model 1, F1-score was obtained
around 80 percent, and for Model 2, around 90 percent. From the class segmentation, it was possible to extract important attributes of each particle, such as quantity
distribution, shape measurements, size, and area fraction. The obtained results were
very promising and indicated that the developed methodology could be viable for
such characterization.
|
54 |
[pt] MONITORAMENTO DE MORANGOS: DETECÇÃO, CLASSIFICAÇÃO E SERVOVISÃO / [en] STRAWBERRY MONITORING: DETECTION, CLASSIFICATION, AND VISUAL SERVOINGGABRIEL LINS TENORIO 27 August 2024 (has links)
[pt] O presente trabalho inicia com uma investigação sobre o uso de modelos
de Aprendizado Profundo 3D para a detecção aprimorada de morangos em
túneis de cultivo. Focou-se em duas tarefas principais: primeiramente, a
detecção de frutas, comparando o modelo original MaskRCNN com uma
versão adaptada que integra informações de profundidade (MaskRCNN-D).
Ambos os modelos são capazes de classificar morangos baseados em sua
maturidade (maduro, não maduro) e estado de saúde (afetados por doença
ou fungo). Em segundo lugar, focou-se em identificar a região mais ampla
dos morangos, cumprindo um requisito para um sistema de espectrômetro
capaz de medir o conteúdo de açúcar das frutas. Nesta tarefa, comparouse um algoritmo baseado em contorno com uma versão aprimorada do
modelo VGG-16. Os resultados demonstram que a integração de dados
de profundidade no MaskRCNN-D resulta em até 13.7 por cento de melhoria no
mAP através de diversos conjuntos de teste de morangos, incluindo os
simulados, enfatizando a eficácia do modelo em cenários agrícolas reais e
simulados. Além disso, nossa abordagem de solução ponta-a-ponta, que
combina a detecção de frutas (MaskRCNN-D) e os modelos de identificação
da região mais ampla (VGG-16 aprimorado), mostra um erro de localização
notavelmente baixo, alcançando até 11.3 pixels de RMSE em uma imagem
de morango cortada de 224 × 224. Finalmente, explorou-se o desafio de
aprimorar a qualidade das leituras de dados do espectrômetro através do
posicionamento automático do sensor. Para tal, projetou-se e treinou-se um
modelo de Aprendizado Profundo com dados simulados, capaz de prever
a acurácia do sensor com base em uma imagem dada de um morango e o
deslocamento desejado da posição do sensor. Usando este modelo, calcula-se
o gradiente da saída de acurácia em relação à entrada de deslocamento. Isso
resulta em um vetor indicando a direção e magnitude com que o sensor deve
ser movido para melhorar a acurácia do sinal do sensor. Propôs-se então
uma solução de Servo Visão baseada neste vetor, obtendo um aumento
significativo na acurácia média do sensor e melhoria na consistência em
novas iterações simuladas. / [en] The present work begins with an investigation into the use of 3D Deep
Learning models for enhanced strawberry detection in polytunnels. We
focus on two main tasks: firstly, fruit detection, comparing the standard
MaskRCNN with an adapted version that integrates depth information
(MaskRCNN-D). Both models are capable of classifying strawberries based
on their maturity (ripe, unripe) and health status (affected by disease or
fungus). Secondly, we focus on identifying the widest region of strawberries,
fulfilling a requirement for a spectrometer system capable of measuring
their sugar content. In this task, we compare a contour-based algorithm
with an enhanced version of the VGG-16 model. Our findings demonstrate
that integrating depth data into the MaskRCNN-D results in up to a
13.7 percent improvement in mAP across various strawberry test sets, including
simulated ones, emphasizing the model s effectiveness in both real-world
and simulated agricultural scenarios. Furthermore, our end-to-end pipeline
approach, which combines the fruit detection (MaskRCNN-D) and widest
region identification models (enhanced VGG-16), shows a remarkably low
localization error, achieving down to 11.3 pixels of RMSE in a 224 × 224
strawberry cropped image. Finally, we explore the challenge of enhancing
the quality of the data readings from the spectrometer through automatic
sensor positioning. To this end, we designed and trained a Deep Learning
model with simulated data, capable of predicting the sensor accuracy based
on a given image of the strawberry and the subsequent displacement of
the sensor s position. Using this model, we calculate the gradient of the
accuracy output with respect to the displacement input. This results in a
vector indicating the direction and magnitude with which the sensor should
be moved to improve the sensor signal accuracy. A Visual Servoing solution
based on this vector provided a significant increase in the average sensor
accuracy and improvement in consistency across new simulated iterations.
|
55 |
[en] CRACK DETECTION IN WIND TURBINES BLADES AND PLASTIC STRAIN ACCUMULATION PREDICTION BASED ON MACHINE LEARNING / [pt] DETECÇÃO DE TRINCAS EM PÁS DE AEROGERADORES E PREVISÃO DE ACÚMULO DE DEFORMAÇÃO PLÁSTICA COM BASE NO APRENDIZADO DE MÁQUINAFERNANDA CARVALHO MARINHO FILIZZOLA 12 December 2024 (has links)
[pt] Os métodos de aprendizado de máquina para monitoramento de pás deturbinas eólicas dependem principalmente de conjuntos de dados completos erotulados, que são caros e muitas vezes impraticáveis de obter. Além disso, naciência dos materiais, a maioria dos métodos depende de dados experimentaiscaros, com exploração limitada de técnicas de aumento de dados para reduziro custo do treinamento de modelos. O objetivo desta pesquisa é abordar essaslacunas significativas explorando a classificação de uma classe para a detecçãode anomalias em pás de turbinas eólicas e desenvolvendo métodos para aumentar os dados existentes para um treinamento de modelos mais econômicona ciência dos materiais. Os métodos aplicados neste trabalho para a detecçãode anomalias incluem One Class Support Vector Machine (OCSVM), SupportVector Data Description (SVDD) e autoencoders Long Short-Term Memory(LSTM). Para aumentar os dados experimentais de materiais, foram utilizadas técnicas de adição de ruído e manipulação de imagens. Para a detecçãode anomalias, o autoencoder LSTM atingiu uma precisão de 97.4 por cento com aproximadamente 100 por cento de recall, enquanto o OCSVM atingiu 89 por cento de precisão e 97 por cento de recall. O OCSVM foi considerado mais adequado devido aos custos de treinamento mais baixos e desempenho semelhante. Os resultados para aumento de dados experimentais mostraram uma melhoria de 20 por cento em relaçãoaos modelos previamente treinados, com a técnica de aumento melhorando significativamente o desempenho, especialmente em modelos treinados com dadosde amostras experimentais diferentes. Em conclusão, esta pesquisa demonstraa eficácia da classificação de uma classe para a detecção de anomalias em pásde turbinas eólicas e destaca os benefícios das técnicas de aumento de dadospara o treinamento de modelos econômicos na ciência dos materiais. / [en] The background machine learning approaches for wind turbine blade monitoring rely mostly on complete and labeled datasets, which are costly and
often impractical to obtain. Additionally, in material science, most methods
depend on expensive experimental data, with limited exploration of data augmentation techniques to reduce the cost and effort of model training. The objective of this research addresses these significant gaps by exploring one-class
classification for anomaly detection in wind turbine blades and by developing
methods to augment existing data for more cost-effective model training in
material science. The methods applied in this work for anomaly detection
include One Class Support Vector Machine (OCSVM), Support Vector Data
Descriptio (SVDD), and Long Short-Term Memory (LSTM) autoencoders. For
augmenting experimental material data, noise addition and image manipulation techniques were used. For anomaly detection, the LSTM autoencoder
achieved an accuracy of 97.4 percent with approximately 100 percent recall, while OCSVM
achieved 89 percent accuracy and 97 percent recall. OCSVM was deemed more suitable
due to lower training costs and similar performance. The results for experimental data augmentation showed a 20 percent improvement over previously trained
models, with the augmentation technique significantly enhancing performance,
especially in models trained with data from different experimental samples. In
conclusion, this research demonstrates the effectiveness of one-class classification for anomaly detection in wind turbine blades and highlights the benefits
of data augmentation techniques for cost-effective model training in material
science.
|
56 |
[en] EXPLAINABLE ARTIFICIAL INTELLIGENCE FOR MEDICAL IMAGE CLASSIFIERS / [pt] INTELIGÊNCIA ARTIFICIAL EXPLICÁVEL PARA CLASSIFICADORES DE IMAGENS MÉDICASIAM PALATNIK DE SOUSA 02 July 2021 (has links)
[pt] A inteligência artificial tem gerado resultados promissores na área médica, especialmente na última década. Contudo, os modelos de melhor desempenho apresentam opacidade em relação ao seu funcionamento interno. Nesta tese, são apresentadas novas metodologias e abordagens para o desenvolvimento de classificadores explicáveis de imagens médicas. Dois principais métodos, Squaregrid e EvEx, foram desenvolvidos. O primeiro consiste em uma geração mais grosseira, porém rápida, de heatmaps explicativos via segmentações em grades quadrados, enquanto o segundo baseia-se em otimização multi-objetivo, baseada em computação evolucionária, visando ao ajuste fino de parâmetros de segmentação. Notavelmente, ambas as técnicas são agnósticas ao modelo, o que facilita sua utilização para qualquer tipo de classificador de imagens. O potencial destas abordagens foi avaliado em três estudos de
caso de classificações médicas: metástases em linfonodos, malária e COVID-19. Para alguns destes casos foram analisados modelos de classificação existentes, publicamente disponíveis. Por outro lado, em outros estudos de caso, novos modelos tiveram que ser treinados. No caso do estudo de COVID-19,
a ResNet50 treinada levou a F-scores acima de 0,9 para o conjunto de teste de uma competição para classificação de coronavirus, levando ao terceiro lugar geral. Adicionalmente, técnicas de inteligência artificial já existentes como LIME e GradCAM, bem como Vanilla, Smooth e Integrated Gradients também
foram usadas para gerar heatmaps e possibilitar comparações. Os resultados aqui descritos ajudaram a demonstrar e preencher parcialmente lacunas associadas à integração das áreas de inteligência artificial explicável e medicina. Eles também ajudaram a demonstrar que as diferentes abordagens de inteligência
artificial explicável podem gerar heatmaps que focam em características diferentes da imagem. Isso por sua vez demonstra a importância de combinar abordagens para criar um panorama mais completo sobre os modelos classificadores, bem como extrair informações sobre o que estes aprendem. / [en] Artificial Intelligence has generated promissing results for the medical
area, especially on the last decade. However, the best performing models
present opacity when it comes to their internal working. In this thesis, methodologies
and approaches are presented for the develpoment of explainable classifiers
of medical images. Two main methods, Squaregrid and EvEx, were developed.
The first consistts in a rough, but fast, generation of heatmaps via
segmentations in square grids, and the second in genetic multi objective optimizations
aiming at the fine-tuning of segmentation parameters. Notably, both
techniques are agnostic to the model,which facilitates their utilization for any
kind of image classifier. The potential of these approaches was demonstrated in
three case studies of medical classifications: lymph node mestastases, malária
and COVID-19. In some of these cases, already existing classifier models were
analyzed, while in some others new models were trained. For the COVID-19
study, the trained ResNet50 provided F-scores above 0.9 in a test set from a
coronavirus classification competition, resulting in the third place overall. Additionally,
already existing explainable artificial intelligence techniques, such
as LIME and GradCAM, as well as Vanilla, Smooth and Integrated Gradients,
were also used to generate heatmaps and enable comparisons. The results here
described help to demonstrate and improve the gaps in integrating the areas of
explainable artificial intelligence and medicine. They also aided in demonstrating
that the different types of approaches in explainable artificial intelligence
can generate heatmaps that focus on different characteristics of the image.
This shows the importance of combining approaches to create a more complete
overview of classifier models, as well as extracting informations about
what they learned from data.
|
57 |
[en] GENERATION AND DETECTION OF OBJECTS IN DOCUMENTS BY DEEP LEARNING NEURAL NETWORK MODELS (DEEPDOCGEN) / [pt] GERAÇÃO E DETECÇÃO DE OBJETOS EM DOCUMENTOS POR MODELOS DE REDES NEURAIS DE APRENDIZAGEM PROFUNDA (DEEPDOCGEN)LOICK GEOFFREY HODONOU 06 February 2025 (has links)
[pt] A eficácia dos sistemas de conversação homem-máquina, como chatbots e
assistentes virtuais, está diretamente relacionada à quantidade e qualidade do
conhecimento disponível para eles. Na era digital, a diversidade e a qualidade
dos dados aumentaram significativamente, estando disponíveis em diversos
formatos. Entre esses, o PDF (Portable Document Format) se destaca como um
dos mais conhecidos e amplamente utilizados, adaptando-se a variados setores,
como empresarial, educacional e de pesquisa. Esses arquivos contêm uma
quantidade considerável de dados estruturados, como textos, títulos, listas,
tabelas, imagens, etc.
O conteúdo dos arquivos PDF pode ser extraído utilizando ferramentas
dedicadas, como o OCR (Reconhecimento Ótico de Caracteres), o PdfMiner,
Tabula e outras, que provaram ser adequadas para esta tarefa. No entanto,
estas ferramentas podem deparar-se com dificuldades quando lidam com
a apresentação complexa e variada dos documentos PDF. A exatidão da
extração pode ser comprometida pela diversidade de esquemas, formatos
não normalizados e elementos gráficos incorporados nos documentos, o que
frequentemente leva a um pós-processamento manual.
A visão computacional e, mais especificamente, a detecção de objetos, é
um ramo do aprendizado de máquina que visa localizar e classificar instâncias
em imagens utilizando modelos de detecção dedicados à tarefa, e está provando
ser uma abordagem viável para acelerar o trabalho realizado por algoritmos
como OCR, PdfMiner, Tabula, além de melhorar sua precisão.
Os modelos de detecção de objetos, por serem baseados em aprendizagem
profunda, exigem não apenas uma quantidade substancial de dados para
treinamento, mas, acima de tudo, anotações de alta qualidade pois elas têm um
impacto direto na obtenção de altos níveis de precisão e robustez. A diversidade
de layouts e elementos gráficos em documentos PDF acrescenta uma camada
adicional de complexidade, exigindo dados anotados de forma representativa
para que os modelos possam aprender a lidar com todas as variações possíveis.
Considerando o aspecto volumoso dos dados necessários para o treinamento dos modelos, percebemos rapidamente que o processo de anotação dos
dados se torna uma tarefa tediosa e demorada que requer intervenção humana
para identificar e etiquetar manualmente cada elemento relevante. Essa tarefa
não é apenas demorada, mas também sujeita a erros humanos, o que muitas
vezes exige verificações e correções adicionais.
A fim de encontrar um meio-termo entre a quantidade de dados, a
minimização do tempo de anotação e anotações de alta qualidade, neste
trabalho propusemos um pipeline que, a partir de um número limitado de
documentos PDF anotados com as categorias texto, título, lista, tabela e
imagem recebidas como entrada, é capaz de criar novas layouts de documentos
semelhantes com base no número desejado pelo usuário. Este pipeline vai mais
longe em preenchendo com o conteúdo as novas layouts criadas, a fim de
fornecer imagens de documentos sintéticos e suas respectivas anotações. Com
sua estrutura simples, intuitiva e escalável, este pipeline pode contribuir para
o active learning, permitindo assim aos modelos de detecção serem treinados
continuamente, os tornando mais eficazes e robustos diante de documentos
reais.
Em nossas experiências, ao avaliar e comparar três modelos de detecção,
observamos que o RT-DETR (Real-Time DEtection TRansformer) obteve os
melhores resultados, atingindo uma precisão média (mean Average Precision,
mAP) de 96,30 por cento, superando os resultados do Mask R-CNN (Region-based
Convolutional Neural Networks) e Mask DINO (Mask DETR with Improved
Denoising Anchor Boxes). A superioridade do RT-DETR indica seu potencial
para se tornar uma solução de referência na detecção de características em
documentos PDF. Esses resultados promissores abrem caminho para aplicações
mais eficientes e confiáveis no processamento automático de documentos. / [en] The effectiveness of human-machine conversation systems, such as chat-bots and virtual assistants, is directly related to the amount and quality of
knowledge available to them. In the digital age, the diversity and quality of
data have increased significantly, being available in various formats. Among
these, the PDF (Portable Document Format) stands out as one of the most
well-known and widely used, adapting to various sectors, such as business, education, and research. These files contain a considerable amount of structured
data, such as text, headings, lists, tables, images, etc.
The content of PDF files can be extracted using dedicated tools, such as
OCR (Optical Character Recognition), PdfMiner, Tabula and others, which
have proven to be suitable for this task. However, these tools may encounter
difficulties when dealing with the complex and varied presentation of PDF
documents. The accuracy of extraction can be compromised by the diversity
of layouts, non-standardized formats, and embedded graphic elements in the
documents, often leading to manual post-processing.
Computer vision, and more specifically, object detection, is a branch
of machine learning that aims to locate and classify instances in images
using models dedicated to the task. It is proving to be a viable approach
to accelerating the work performed by algorithms like OCR, PdfMiner, Tabula
and improving their accuracy.
Object detection models, being based on deep learning, require not only
a substantial amount of data for training but, above all, high-quality annotations, as they have a direct impact on achieving high levels of accuracy and
robustness. The diversity of layouts and graphic elements in PDF documents
adds an additional layer of complexity, requiring representatively annotated
data so that the models can learn to handle all possible variations.
Considering the voluminous aspect of the data needed for training the
models, we quickly realize that the data annotation process becomes a tedious
and time-consuming task requiring human intervention to manually identify
and label each relevant element. This task is not only time-consuming but also
subject to human error, often requiring additional checks and corrections.
To find a middle ground between the amount of data, minimizing
annotation time, and high-quality annotations, in this work, we proposed a
pipeline that, from a limited number of annotated PDF documents with the
categories text, title, list, table, and image as input, can create new document
layouts similar to the desired number by the user. This pipeline goes further
by filling the new created layouts with content to provide synthetic document
images and their respective annotations. With its simple, intuitive, and scalable
structure, this pipeline can contribute to active learning, allowing detection
models to be continuously trained, making them more effective and robust in
the face of real documents.
In our experiments, when evaluating and comparing three detection
models, we observed that the RT-DETR (Real-Time Detection Transformer)
achieved the best results, reaching a mean Average Precision (mAP) of 96.30 percent,
surpassing the results of Mask R-CNN (Region-based Convolutional Neural
Networks) and Mask DINO (Mask DETR with Improved Denoising Anchor
Boxes). The superiority of RT-DETR indicates its potential to become a reference solution in detecting features in PDF documents. These promising results
pave the way for more efficient and reliable applications in the automatic processing of documents.
|
58 |
RAMBLE: robust acoustic modeling for Brazilian learners of English / RAMBLE: modelagem acústica robusta para estudantes brasileiros de InglêsShulby, Christopher Dane 08 August 2018 (has links)
The gains made by current deep-learning techniques have often come with the price tag of big data and where that data is not available, a new solution must be found. Such is the case for accented and noisy speech where large databases do not exist and data augmentation techniques, which are less than perfect, present an even larger obstacle. Another problem is that state-of-the-art results are rarely reproducible because they use proprietary datasets, pretrained networks and/or weight initializations from other larger networks. An example of a low resource scenario exists even in the fifth largest land in the world; home to most of the speakers of the seventh most spoken language on earth. Brazil is the leader in the Latin-American economy and as a BRIC country aspires to become an ever-stronger player in the global marketplace. Still, English proficiency is low, even for professionals in businesses and universities. Low intelligibility and strong accents can damage professional credibility. It has been established in the literature for foreign language teaching that it is important that adult learners are made aware of their errors as outlined by the Noticing Theory, explaining that a learner is more successful when he is able to learn from his own mistakes. An essential objective of this dissertation is to classify phonemes in the acoustic model which is needed to properly identify phonemic errors automatically. A common belief in the community is that deep learning requires large datasets to be effective. This happens because brute force methods create a highly complex hypothesis space which requires large and complex networks which in turn demand a great amount of data samples in order to generate useful networks. Besides that, the loss functions used in neural learning does not provide statistical learning guarantees and only guarantees the network can memorize the training space well. In the case of accented or noisy speech where a new sample can carry a great deal of variation from the training samples, the generalization of such models suffers. The main objective of this dissertation is to investigate how more robust acoustic generalizations can be made, even with little data and noisy accented-speech data. The approach here is to take advantage of raw feature extraction provided by deep learning techniques and instead focus on how learning guarantees can be provided for small datasets to produce robust results for acoustic modeling without the dependency of big data. This has been done by careful and intelligent parameter and architecture selection within the framework of the statistical learning theory. Here, an intelligently defined CNN architecture, together with context windows and a knowledge-driven hierarchical tree of SVM classifiers achieves nearly state-of-the-art frame-wise phoneme recognition results with absolutely no pretraining or external weight initialization. A goal of this thesis is to produce transparent and reproducible architectures with high frame-level accuracy, comparable to the state of the art. Additionally, a convergence analysis based on the learning guarantees of the statistical learning theory is performed in order to evidence the generalization capacity of the model. The model achieves 39.7% error in framewise classification and a 43.5% phone error rate using deep feature extraction and SVM classification even with little data (less than 7 hours). These results are comparable to studies which use well over ten times that amount of data. Beyond the intrinsic evaluation, the model also achieves an accuracy of 88% in the identification of epenthesis, the error which is most difficult for Brazilian speakers of English This is a 69% relative percentage gain over the previous values in the literature. The results are significant because it shows how deep feature extraction can be applied to little data scenarios, contrary to popular belief. The extrinsic, task-based results also show how this approach could be useful in tasks like automatic error diagnosis. Another contribution is the publication of a number of freely available resources which previously did not exist, meant to aid future researches in dataset creation. / Os ganhos obtidos pelas atuais técnicas de aprendizado profundo frequentemente vêm com o preço do big data e nas pesquisas em que esses grandes volumes de dados não estão disponíveis, uma nova solução deve ser encontrada. Esse é o caso do discurso marcado e com forte pronúncia, para o qual não existem grandes bases de dados; o uso de técnicas de aumento de dados (data augmentation), que não são perfeitas, apresentam um obstáculo ainda maior. Outro problema encontrado é que os resultados do estado da arte raramente são reprodutíveis porque os métodos usam conjuntos de dados proprietários, redes prétreinadas e/ou inicializações de peso de outras redes maiores. Um exemplo de um cenário de poucos recursos existe mesmo no quinto maior país do mundo em território; lar da maioria dos falantes da sétima língua mais falada do planeta. O Brasil é o líder na economia latino-americana e, como um país do BRIC, deseja se tornar um participante cada vez mais forte no mercado global. Ainda assim, a proficiência em inglês é baixa, mesmo para profissionais em empresas e universidades. Baixa inteligibilidade e forte pronúncia podem prejudicar a credibilidade profissional. É aceito na literatura para ensino de línguas estrangeiras que é importante que os alunos adultos sejam informados de seus erros, conforme descrito pela Noticing Theory, que explica que um aluno é mais bem sucedido quando ele é capaz de aprender com seus próprios erros. Um objetivo essencial desta tese é classificar os fonemas do modelo acústico, que é necessário para identificar automaticamente e adequadamente os erros de fonemas. Uma crença comum na comunidade é que o aprendizado profundo requer grandes conjuntos de dados para ser efetivo. Isso acontece porque os métodos de força bruta criam um espaço de hipóteses altamente complexo que requer redes grandes e complexas que, por sua vez, exigem uma grande quantidade de amostras de dados para gerar boas redes. Além disso, as funções de perda usadas no aprendizado neural não fornecem garantias estatísticas de aprendizado e apenas garantem que a rede possa memorizar bem o espaço de treinamento. No caso de fala marcada ou com forte pronúncia, em que uma nova amostra pode ter uma grande variação comparada com as amostras de treinamento, a generalização em tais modelos é prejudicada. O principal objetivo desta tese é investigar como generalizações acústicas mais robustas podem ser obtidas, mesmo com poucos dados e/ou dados ruidosos de fala marcada ou com forte pronúncia. A abordagem utilizada nesta tese visa tirar vantagem da raw feature extraction fornecida por técnicas de aprendizado profundo e obter garantias de aprendizado para conjuntos de dados pequenos para produzir resultados robustos para a modelagem acústica, sem a necessidade de big data. Isso foi feito por meio de seleção cuidadosa e inteligente de parâmetros e arquitetura no âmbito da Teoria do Aprendizado Estatístico. Nesta tese, uma arquitetura baseada em Redes Neurais Convolucionais (RNC) definida de forma inteligente, junto com janelas de contexto e uma árvore hierárquica orientada por conhecimento de classificadores que usam Máquinas de Vetores Suporte (Support Vector Machines - SVMs) obtém resultados de reconhecimento de fonemas baseados em frames quase no estado da arte sem absolutamente nenhum pré-treinamento ou inicialização de pesos de redes externas. Um objetivo desta tese é produzir arquiteturas transparentes e reprodutíveis com alta precisão em nível de frames, comparável ao estado da arte. Adicionalmente, uma análise de convergência baseada nas garantias de aprendizado da teoria de aprendizagem estatística é realizada para evidenciar a capacidade de generalização do modelo. O modelo possui um erro de 39,7% na classificação baseada em frames e uma taxa de erro de fonemas de 43,5% usando raw feature extraction e classificação com SVMs mesmo com poucos dados (menos de 7 horas). Esses resultados são comparáveis aos estudos que usam bem mais de dez vezes essa quantidade de dados. Além da avaliação intrínseca, o modelo também alcança uma precisão de 88% na identificação de epêntese, o erro que é mais difícil para brasileiros falantes de inglês. Este é um ganho relativo de 69% em relação aos valores anteriores da literatura. Os resultados são significativos porque mostram como raw feature extraction pode ser aplicada a cenários de poucos dados, ao contrário da crença popular. Os resultados extrínsecos também mostram como essa abordagem pode ser útil em tarefas como o diagnóstico automático de erros. Outra contribuição é a publicação de uma série de recursos livremente disponíveis que anteriormente não existiam, destinados a auxiliar futuras pesquisas na criação de conjuntos de dados.
|
59 |
RAMBLE: robust acoustic modeling for Brazilian learners of English / RAMBLE: modelagem acústica robusta para estudantes brasileiros de InglêsChristopher Dane Shulby 08 August 2018 (has links)
The gains made by current deep-learning techniques have often come with the price tag of big data and where that data is not available, a new solution must be found. Such is the case for accented and noisy speech where large databases do not exist and data augmentation techniques, which are less than perfect, present an even larger obstacle. Another problem is that state-of-the-art results are rarely reproducible because they use proprietary datasets, pretrained networks and/or weight initializations from other larger networks. An example of a low resource scenario exists even in the fifth largest land in the world; home to most of the speakers of the seventh most spoken language on earth. Brazil is the leader in the Latin-American economy and as a BRIC country aspires to become an ever-stronger player in the global marketplace. Still, English proficiency is low, even for professionals in businesses and universities. Low intelligibility and strong accents can damage professional credibility. It has been established in the literature for foreign language teaching that it is important that adult learners are made aware of their errors as outlined by the Noticing Theory, explaining that a learner is more successful when he is able to learn from his own mistakes. An essential objective of this dissertation is to classify phonemes in the acoustic model which is needed to properly identify phonemic errors automatically. A common belief in the community is that deep learning requires large datasets to be effective. This happens because brute force methods create a highly complex hypothesis space which requires large and complex networks which in turn demand a great amount of data samples in order to generate useful networks. Besides that, the loss functions used in neural learning does not provide statistical learning guarantees and only guarantees the network can memorize the training space well. In the case of accented or noisy speech where a new sample can carry a great deal of variation from the training samples, the generalization of such models suffers. The main objective of this dissertation is to investigate how more robust acoustic generalizations can be made, even with little data and noisy accented-speech data. The approach here is to take advantage of raw feature extraction provided by deep learning techniques and instead focus on how learning guarantees can be provided for small datasets to produce robust results for acoustic modeling without the dependency of big data. This has been done by careful and intelligent parameter and architecture selection within the framework of the statistical learning theory. Here, an intelligently defined CNN architecture, together with context windows and a knowledge-driven hierarchical tree of SVM classifiers achieves nearly state-of-the-art frame-wise phoneme recognition results with absolutely no pretraining or external weight initialization. A goal of this thesis is to produce transparent and reproducible architectures with high frame-level accuracy, comparable to the state of the art. Additionally, a convergence analysis based on the learning guarantees of the statistical learning theory is performed in order to evidence the generalization capacity of the model. The model achieves 39.7% error in framewise classification and a 43.5% phone error rate using deep feature extraction and SVM classification even with little data (less than 7 hours). These results are comparable to studies which use well over ten times that amount of data. Beyond the intrinsic evaluation, the model also achieves an accuracy of 88% in the identification of epenthesis, the error which is most difficult for Brazilian speakers of English This is a 69% relative percentage gain over the previous values in the literature. The results are significant because it shows how deep feature extraction can be applied to little data scenarios, contrary to popular belief. The extrinsic, task-based results also show how this approach could be useful in tasks like automatic error diagnosis. Another contribution is the publication of a number of freely available resources which previously did not exist, meant to aid future researches in dataset creation. / Os ganhos obtidos pelas atuais técnicas de aprendizado profundo frequentemente vêm com o preço do big data e nas pesquisas em que esses grandes volumes de dados não estão disponíveis, uma nova solução deve ser encontrada. Esse é o caso do discurso marcado e com forte pronúncia, para o qual não existem grandes bases de dados; o uso de técnicas de aumento de dados (data augmentation), que não são perfeitas, apresentam um obstáculo ainda maior. Outro problema encontrado é que os resultados do estado da arte raramente são reprodutíveis porque os métodos usam conjuntos de dados proprietários, redes prétreinadas e/ou inicializações de peso de outras redes maiores. Um exemplo de um cenário de poucos recursos existe mesmo no quinto maior país do mundo em território; lar da maioria dos falantes da sétima língua mais falada do planeta. O Brasil é o líder na economia latino-americana e, como um país do BRIC, deseja se tornar um participante cada vez mais forte no mercado global. Ainda assim, a proficiência em inglês é baixa, mesmo para profissionais em empresas e universidades. Baixa inteligibilidade e forte pronúncia podem prejudicar a credibilidade profissional. É aceito na literatura para ensino de línguas estrangeiras que é importante que os alunos adultos sejam informados de seus erros, conforme descrito pela Noticing Theory, que explica que um aluno é mais bem sucedido quando ele é capaz de aprender com seus próprios erros. Um objetivo essencial desta tese é classificar os fonemas do modelo acústico, que é necessário para identificar automaticamente e adequadamente os erros de fonemas. Uma crença comum na comunidade é que o aprendizado profundo requer grandes conjuntos de dados para ser efetivo. Isso acontece porque os métodos de força bruta criam um espaço de hipóteses altamente complexo que requer redes grandes e complexas que, por sua vez, exigem uma grande quantidade de amostras de dados para gerar boas redes. Além disso, as funções de perda usadas no aprendizado neural não fornecem garantias estatísticas de aprendizado e apenas garantem que a rede possa memorizar bem o espaço de treinamento. No caso de fala marcada ou com forte pronúncia, em que uma nova amostra pode ter uma grande variação comparada com as amostras de treinamento, a generalização em tais modelos é prejudicada. O principal objetivo desta tese é investigar como generalizações acústicas mais robustas podem ser obtidas, mesmo com poucos dados e/ou dados ruidosos de fala marcada ou com forte pronúncia. A abordagem utilizada nesta tese visa tirar vantagem da raw feature extraction fornecida por técnicas de aprendizado profundo e obter garantias de aprendizado para conjuntos de dados pequenos para produzir resultados robustos para a modelagem acústica, sem a necessidade de big data. Isso foi feito por meio de seleção cuidadosa e inteligente de parâmetros e arquitetura no âmbito da Teoria do Aprendizado Estatístico. Nesta tese, uma arquitetura baseada em Redes Neurais Convolucionais (RNC) definida de forma inteligente, junto com janelas de contexto e uma árvore hierárquica orientada por conhecimento de classificadores que usam Máquinas de Vetores Suporte (Support Vector Machines - SVMs) obtém resultados de reconhecimento de fonemas baseados em frames quase no estado da arte sem absolutamente nenhum pré-treinamento ou inicialização de pesos de redes externas. Um objetivo desta tese é produzir arquiteturas transparentes e reprodutíveis com alta precisão em nível de frames, comparável ao estado da arte. Adicionalmente, uma análise de convergência baseada nas garantias de aprendizado da teoria de aprendizagem estatística é realizada para evidenciar a capacidade de generalização do modelo. O modelo possui um erro de 39,7% na classificação baseada em frames e uma taxa de erro de fonemas de 43,5% usando raw feature extraction e classificação com SVMs mesmo com poucos dados (menos de 7 horas). Esses resultados são comparáveis aos estudos que usam bem mais de dez vezes essa quantidade de dados. Além da avaliação intrínseca, o modelo também alcança uma precisão de 88% na identificação de epêntese, o erro que é mais difícil para brasileiros falantes de inglês. Este é um ganho relativo de 69% em relação aos valores anteriores da literatura. Os resultados são significativos porque mostram como raw feature extraction pode ser aplicada a cenários de poucos dados, ao contrário da crença popular. Os resultados extrínsecos também mostram como essa abordagem pode ser útil em tarefas como o diagnóstico automático de erros. Outra contribuição é a publicação de uma série de recursos livremente disponíveis que anteriormente não existiam, destinados a auxiliar futuras pesquisas na criação de conjuntos de dados.
|
60 |
[en] EXTRACTING AND CONNECTING PLAINTIFF S LEGAL CLAIMS AND JUDICIAL PROVISIONS FROM BRAZILIAN COURT DECISIONS / [pt] EXTRAÇÃO E CONEXÃO ENTRE PEDIDOS E DECISÕES JUDICIAIS DE UM TRIBUNAL BRASILEIROWILLIAM PAULO DUCCA FERNANDES 03 November 2020 (has links)
[pt] Neste trabalho, propomos uma metodologia para anotar decisões judiciais,
criar modelos de Deep Learning para extração de informação, e visualizar
de forma agregada a informação extraída das decisões. Instanciamos a
metodologia em dois sistemas. O primeiro extrai modificações de um tribunal
de segunda instância, que consiste em um conjunto de categorias legais
que são comumente modificadas pelos tribunais de segunda instância. O
segundo (i) extrai as causas que motivaram uma pessoa a propor uma ação
judicial (causa de pedir), os pedidos do autor e os provimentos judiciais dessas
ações proferidas pela primeira e segunda instância de um tribunal, e (ii)
conecta os pedidos com os provimentos judiciais correspondentes. O sistema
apresenta seus resultados através de visualizações. Extração de Informação
para textos legais tem sido abordada usando diferentes técnicas e idiomas.
Nossas propostas diferem dos trabalhos anteriores, pois nossos corpora são
compostos por decisões de primeira e segunda instância de um tribunal brasileiro.
Para extrair as informações, usamos uma abordagem tradicional de
Aprendizado de Máquina e outra usando Deep Learning, tanto individualmente
quanto como uma solução combinada. Para treinar e avaliar os sistemas,
construímos quatro corpora: Kauane Junior para o primeiro sistema,
e Kauane Insurance Report, Kauane Insurance Lower e Kauane Insurance
Upper para o segundo. Usamos dados públicos disponibilizados pelo Tribunal
de Justiça do Estado do Rio de Janeiro para construir os corpora. Para
o Kauane Junior, o melhor modelo (Fbeta=1 de 94.79 por cento) foi uma rede neural bidirecional Long Short-Term Memory combinada com Conditional Random
Fields (BILSTM-CRF); para o Kauane Insurance Report, o melhor (Fbeta=1
de 67,15 por cento) foi uma rede neural bidirecional Long Short-Term Memory com
embeddings de caracteres concatenados a embeddings de palavras combinada
com Conditional Random Fields (BILSTM-CE-CRF). Para o Kauane
Insurance Lower, o melhor (Fbeta=1 de 89,12 por cento) foi uma BILSTM-CE-CRF;
para o Kauane Insurance Upper, uma BILSTM-CRF (Fbeta=1 de 83,66 por cento). / [en] In this work, we propose a methodology to annotate Court decisions,
create Deep Learning models to extract information, and visualize the aggregated
information extracted from the decisions. We instantiate our methodology
in two systems we have developed. The first one extracts Appellate
Court modifications, a set of legal categories that are commonly modified
by Appellate Courts. The second one (i) extracts plaintiff s legal claims and
each specific provision on legal opinions enacted by lower and Appellate
Courts, and (ii) connects each legal claim with the corresponding judicial
provision. The system presents the results through visualizations. Information
Extraction for legal texts has been previously addressed using different
techniques and languages. Our proposals differ from previous work, since
our corpora are composed of Brazilian lower and Appellate Court decisions.
To automatically extract that information, we use a traditional Machine
Learning approach and a Deep Learning approach, both as alternative solutions
and also as a combined solution. In order to train and evaluate the
systems, we have built Kauane Junior corpus for the first system, and three
corpora for the second system – Kauane Insurance Report, Kauane Insurance
Lower, and Kauane Insurance Upper. We used public data disclosed by
the State Court of Rio de Janeiro to build the corpora. For Kauane Junior,
the best model, which is a Bidirectional Long Short-Term Memory network
combined with Conditional Random Fields (BILSTM-CRF), obtained an
(F)beta=1 score of 94.79 percent. For Kauane Insurance Report, the best model, which is a Bidirectional Long Short-Term Memory network with character embeddings
concatenated to word embeddings combined with Conditional Random
Fields (BILSTM-CE-CRF), obtained an (F)beta=1 score of 67.15 percent. For
Kauane Insurance Lower, the best model, which is a BILSTM-CE-CRF,
obtained an (F)beta=1 score of 89.12 percent. For Kauane Insurance Upper, the best
model, which is a BILSTM-CRF, obtained an (F)beta=1 score of 83.66 percent.
|
Page generated in 0.0474 seconds