Global ETD Search

1	[en] A DATA ANNOTATION APPROACH USING LARGE LANGUAGE MODELS / [pt] UMA ABORDAGEM PARA ANOTAÇÃO DE DADOS UTILIZANDO GRANDES MODELOS DE LINGUAGEM CARLOS VINICIOS MARTINS ROCHA 17 October 2024 (has links) [pt] Os documentos são essenciais para o sistema econômico e acadêmico; no entanto, explorá-los pode ser uma tarefa complexa e demorada. Uma abordagem para contornar esse problema é o uso de modelos de Visual Question and Answering (VQA) para extração de informações de documentos por meio de prompts em linguagem natural. No VQA, assim como para o desenvolvimento dos mais variados modelos, é necessário possuir dados anotados para a sua etapa de treinamento e validação. No entanto, criar esses conjuntos de dados é desafiador devido ao alto custo envolvido no processo. Com base nisso, propomos um processo de quatro etapas que combina Modelos de Visão Computacional e Large Language Models (LLMs) para a anotação de dados de VQA em relatórios financeiros. O método proposto inicia pelo reconhecimento da estrutura textual dos documentos por meio de modelos de Análise de Layout de Documentos e Extração de Estrutura de Tabelas. Em seguida, utiliza duas LLMs distintas para a etapa de geração e avaliação dos pares de perguntas e respostas geradas, automatizando a construção e seleção dos melhores pares para compor a base final. Para avaliar o método proposto, geramos um dataset para treinar e avaliar modelos especialistas em VQA. / [en] Documents are essential for the economic and academic system; however, exploring them can be complex and time-consuming. An approach to surpass this problem is the use of Visual Question and Answering (VQA) models to extract information from documents through natural language prompts. In VQA, as well as for the development of various models, it is necessary to have annotated data for training and validation. However, creating these datasets is challenging due to the high cost involved in the process. To face this challenge, we propose a four-step process that combines Computer Vision Models and Large Language Models (LLMs) for VQA data annotation in financial reports. The proposed method starts with recognizing the textual structure of documents through Document Layout Analysis and Table Structure Extraction models. Then, it uses two distinct LLMs for the generation and evaluation of question and answer pairs, automating the construction and selection of the best pairs to compose the final dataset. To evaluate the proposed method, we generate a dataset for train and evaluate VQA specialized models. [pt] GRANDE MODELO DE LINGUAGEM [pt] DOCUMENTO [pt] VQA [pt] ANOTACAO DE DADOS [en] LARGE LANGUAGE MODEL [en] DOCUMENT [en] VQA [en] DATA ANNOTATION
2	[pt] AVALIANDO LLM NA TAREFA DE ANOTAÇÃO DE ENTIDADES LEGAIS UTILIZANDO FEW-SHOT LEARNING / [en] EVALUATING LLM IN-CONTEXT FEW-SHOT LEARNING ON LEGAL ENTITY ANNOTATION TASK VENICIUS GARCIA REGO 24 March 2025 (has links) [pt] Um número considerável de documentos no domínio do Direito estão disponíveis hoje na Internet. Mesmo assim, atividades de extração de infor mação, como Reconhecimento de Entidades Nomeadas (REN), no domínio do Direito, continuam desafiadoras, principalmente quando não são em Inglês. Um dos motivos é a escasses de corpus anotados, combinado com a dificuldade e custos de desenvolvimento. A tarefa de anotação de dados legais é custosa por limitações de tempo e de recursos humanos. O surgimento dos Modelos de Lin guagem Grandes (LLMs) atraiu atenção por conta da capacidade de performar tarefas apenas com uma descrição ou exemplos de como realizar a atividade, em linguagem natural, passados no contexto. Estudos recentes apresentaram resultados significativos em relação a utilização de LLMs na tarefa de anotação de documentos, em alguns casos, a performance do modelo era comparável a de anotadores humanos. Portanto, neste trabalho, propomos avaliar a capaci dade de LLMs na tarefa de anotação de entidades nomeadas em documentos do domínio do Direito utilizando Few-shot Learning, verificando sua utiliza ção no processo de anotação junto com humanos. Para realizar a avaliação, utilizamos um corpus em Português dedicado ao REN contendo decisões do Supremo Tribunal Federal (STF) que foram previamente anotadas por estu dantes de Direito. Os resultados obtidos mostram que LLMs são capazes de reconhecer corretamente as entidades presentes no texto e de produzir ano tações precisas sem a necessidade de treinar novamente o modelo, portanto, podem auxiliar no processo de anotação, diminuindo a carga de trabalho dos anotadores e tornando a tarefa de anotação mais eficiente. / [en] A considerable amount of legal documents is available on the Internet nowadays. Even so, knowledge extraction activities, such as Named Entity Recognition (NER), in the legal domain are still challenging, even more so when are not in English. One of the reasons is the low amount of annotated corpora available, combined with the burden and cost of developing a new one. The legal annotation task is itself challenging due to limitations on both time and human resources. The emergence of Large Language Models (LLMs) has attracted attention due to their capability of reasoning using only in context information about the tasks. Recent studies present significant results regarding its usage in document annotation tasks; in some cases, the model is comparable to human annotators. Thus, in this work, we evaluate LLM s in-context few-shot learning capability on a legal NER, assessing its usage in an annotation task process with humans. To do so, our study is based on the data gathered along an annotation task previously conducted to produce a corpus of legal decisions written in Portuguese, published by Brazilian Supreme Federal Court (STF), dedicated to the NER, and annotated by law students. Our experiments showed that the LLM can produce highly accurate annotations, without any gradient update. Thus, may can assist annotators in the annotation process, reducing the amount of time and effort and making the annotation task more efficient. [pt] DIREITO [pt] FEW SHOT LEARNING [pt] ANOTACAO DE ENTIDADES LEGAIS [pt] GRANDE MODELO DE LINGUAGEM [en] RIGHTS [en] FEW SHOT LEARNING [en] LEGAL ENTITIES ANNOTATION [en] LARGE LANGUAGE MODEL
3	[pt] ASSISTENTE VIRTUAL UTILIZANDO TRANSFORMERS GENERATIVOS PRÉ-TREINADOS NO CONTEXTO DE GERENCIAMENTO DE RESERVATÓRIOS / [en] VIRTUAL ASSISTANT USING PRETRAINED GENER ATIVE TRANSFORMERS IN THE CONTEXT OF RESERVOIR MANAGEMENT MATHEUS MORAES FERREIRA 18 March 2025 (has links) [pt] Com a crescente popularização das técnicas de Inteligência Artificial, principalmente voltadas ao processamento de linguagem natural, testemunhamos um notável avanço nos Large Language Models (modelos de linguagem avançados), dos quais o Generative Pre-trained Transformer (GPT) consiste no exemplo mais notável. Consequentemente, assistentes virtuais têm conquistado zuma presença significativa em diversas áreas da vida contemporânea. Neste trabalho, é proposta uma metodologia para desenvolver uma assistente virtual inteligente, baseada em um modelo gerador, capaz de compreender a língua portuguesa do Brasil, bem como o domínio específico da Indústria de Óleo e Gás. Essa assistente tem a capacidade de interpretar comandos textuais fornecidos pelos usuários e executar ações correspondentes em um sistema corporativo. Essa metodologia é o resultado de uma cuidadosa análise de diferentes modelos generativos disponíveis, buscando identificar aquele que melhor se adequa aos requisitos da assistente virtual inteligente em português. Para treinamento é criado um dataset representativo com os conceitos necessários e específicos do sistema e da indústria do petróleo. É adotado um processo de refinamento que permite identificar eventuais falhas e aperfeiçoar a compreensão da assistente para garantir respostas precisas e direcionadas. Também são abordados neste trabalho os desafios e limitações inerentes aos modelos generativos, bem como estratégias para superá-las a fim de obter gerações mais precisas e seguras. / [en] With the growing popularity of Artificial Intelligence, specially related to Natural Language Processing, we notice a remarkable development of Large Language Models, which finds in the Generative Pre-Trained Transformers (GPT) their most outstanding example. As a result, virtual assistants have being gaining significant presence in various areas of modern life. In this work, we present the development of an intelligent virtual assistant, based on a generative model. The assistant understands Brazilian Portuguese and is trained on the specific jargon of the Oil and Gas Industry. This assistant has the ability to interpret textual commands provided by users and execute corresponding actions within a corporate system. This methodology is the result of a careful analysis of different available generative models, aiming to identify the one that best suited the requirements of an intelligent virtual assistant in Portuguese. Additionally, it involves the creation of a representative dataset, with concepts specific to the system and the Oil and Gas Industry, to effectively train the assistant. A refinement process allows the identification of potential flaws and the improvement of the assistant s understanding to ensure accurate and targeted responses. Furthermore, this work presents the challenges and the inherent limitations of generative models, and proposes strategies to overcome them in order to achieve more precise and secure generations. [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [pt] GPT [pt] APRENDIZADO DE MAQUINA [pt] GRANDE MODELO DE LINGUAGEM [pt] ASSISTENTE VIRTUAL INTELIGENTE [en] NATURAL LANGUAGE PROCESSING [en] GPT [en] MACHINE LEARNING [en] LARGE LANGUAGE MODEL [en] INTELLIGENT VIRTUAL ASSISTANT

1

Page generated in 0.0528 seconds