1 |
[en] A DATA ANNOTATION APPROACH USING LARGE LANGUAGE MODELS / [pt] UMA ABORDAGEM PARA ANOTAÇÃO DE DADOS UTILIZANDO GRANDES MODELOS DE LINGUAGEMCARLOS VINICIOS MARTINS ROCHA 17 October 2024 (has links)
[pt] Os documentos são essenciais para o sistema econômico e acadêmico;
no entanto, explorá-los pode ser uma tarefa complexa e demorada. Uma
abordagem para contornar esse problema é o uso de modelos de Visual
Question and Answering (VQA) para extração de informações de documentos
por meio de prompts em linguagem natural. No VQA, assim como para
o desenvolvimento dos mais variados modelos, é necessário possuir dados
anotados para a sua etapa de treinamento e validação. No entanto, criar esses
conjuntos de dados é desafiador devido ao alto custo envolvido no processo.
Com base nisso, propomos um processo de quatro etapas que combina Modelos
de Visão Computacional e Large Language Models (LLMs) para a anotação
de dados de VQA em relatórios financeiros. O método proposto inicia pelo
reconhecimento da estrutura textual dos documentos por meio de modelos de
Análise de Layout de Documentos e Extração de Estrutura de Tabelas. Em
seguida, utiliza duas LLMs distintas para a etapa de geração e avaliação dos
pares de perguntas e respostas geradas, automatizando a construção e seleção
dos melhores pares para compor a base final. Para avaliar o método proposto,
geramos um dataset para treinar e avaliar modelos especialistas em VQA. / [en] Documents are essential for the economic and academic system; however,
exploring them can be complex and time-consuming. An approach to surpass
this problem is the use of Visual Question and Answering (VQA) models to
extract information from documents through natural language prompts. In
VQA, as well as for the development of various models, it is necessary to have
annotated data for training and validation. However, creating these datasets is
challenging due to the high cost involved in the process. To face this challenge,
we propose a four-step process that combines Computer Vision Models and
Large Language Models (LLMs) for VQA data annotation in financial reports.
The proposed method starts with recognizing the textual structure of documents through Document Layout Analysis and Table Structure Extraction
models. Then, it uses two distinct LLMs for the generation and evaluation of
question and answer pairs, automating the construction and selection of the
best pairs to compose the final dataset. To evaluate the proposed method, we
generate a dataset for train and evaluate VQA specialized models.
|
Page generated in 0.0313 seconds