Return to search

[en] METHOD FOR AUTOMATIC DETECTION OF STAMPS IN SCANNED DOCUMENTS USING DEEP LEARNING AND SYNTHETIC DATA GENERATION BY INSTANCE AUGMENTATION / [pt] MÉTODO PARA DETECÇÃO AUTOMÁTICA DE CARIMBOS EM DOCUMENTOS ESCANEADOS USANDO DEEP LEARNING E GERAÇÃO DE DADOS SINTÉTICOS ATRAVÉS DE INSTANCE AUGMENTATION

[pt] Documentos digitalizados em ambientes de negócios substituíram grandes
volumes de papéis. Profissionais autorizados usam carimbos para certificar
informações críticas nesses documentos. Muitas empresas precisam verificar o
carimbo adequado de documentos de entrada e saída. Na maioria das situações de
inspeção, as pessoas realizam inspeção visual para identificar carimbos. Assim
sendo, a verificação manual de carimbos é cansativa, suscetível a erros e ineficiente
em termos de tempo gasto e resultados esperados. Erros na verificação manual de
carimbos podem gerar multas de órgãos reguladores, interrupção de operações e até
mesmo comprometer fluxos de trabalho e transações financeiras. Este trabalho
propõe dois métodos que combinados podem resolver esse problema,
automatizando totalmente a detecção de carimbos em documentos digitalizados do
mundo real. Os métodos desenvolvidos podem lidar com conjuntos de dados
contendo muitos tipos de carimbos de tamanho de amostra pequena, com múltiplas
sobreposições, combinações diferentes por página e dados ausentes. O primeiro
método propõe uma arquitetura de rede profunda projetada a partir da relação entre
os problemas identificados em carimbos do mundo real e os desafios e soluções da
tarefa de detecção de objetos apontados na literatura. O segundo método propõe um
novo pipeline de aumento de instâncias de conjuntos de dados de carimbos a partir
de dados reais e investiga se é possível detectar tipos de carimbos com amostras
insuficientes. Este trabalho avalia os hiperparâmetros da abordagem de aumento de
instâncias e os resultados obtidos usando um método Deep Explainability. Foram
alcançados resultados de última geração para a tarefa de detecção de carimbos
combinando com sucesso esses dois métodos, alcançando 97.3 por cento de precisão e
93.2 por cento de recall. / [en] Scanned documents in business environments have replaced large volumes
of papers. Authorized professionals use stamps to certify critical information in
these documents. Many companies need to verify the adequate stamping of
incoming and outgoing documents. In most inspection situations, people perform a
visual inspection to identify stamps. Therefore, manual stamp checking is tiring,
susceptible to errors, and inefficient in terms of time spent and expected results.
Errors in manual checking for stamps can lead to fines from regulatory bodies,
interruption of operations, and even compromise workflows and financial
transactions. This work proposes two methods that combined can address this
problem, by fully automating stamp detection in real-world scanned documents.
The developed methods can handle datasets containing many small sample-sized
types of stamps, multiples overlaps, different combinations per page, and missing
data. The first method proposes a deep network architecture designed from the
relationship between the problems identified in real-world stamps and the
challenges and solutions of the object detection task pointed out in the literature.
The second method proposes a novel instance augmentation pipeline of stamp
datasets from real data to investigate whether it is possible to detect stamp types
with insufficient samples. We evaluate the hyperparameters of the instance
augmentation approach and the obtained results through a Deep Explainability
method. We achieve state-of-the-art results for the stamp detection task by
successfully combining these two methods, achieving 97.3 percent of precision and
93.2 percent of recall.

Identiferoai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:60136
Date11 August 2022
CreatorsTHALES LEVI AZEVEDO VALENTE
ContributorsMARCELO GATTASS
PublisherMAXWELL
Source SetsPUC Rio
LanguageEnglish
Detected LanguagePortuguese
TypeTEXTO

Page generated in 0.0027 seconds