Return to search

[en] SUMARIZATION OF HEALTH SCIENCE PAPERS IN PORTUGUESE / [pt] SUMARIZAÇÃO DE ARTIGOS CIENTÍFICOS EM PORTUGUÊS NO DOMÍNIO DA SAÚDE

[pt] Neste trabalho, apresentamos um estudo sobre o fine-tuning de um LLM
(Modelo de Linguagem Amplo ou Large Language Model) pré-treinado para a
sumarização abstrativa de textos longos em português. Para isso, construímos
um corpus contendo uma coleção de 7.450 artigos científicos na área de Ciências
da Saúde em português. Utilizamos esse corpus para o fine-tuning do modelo
BERT pré-treinado para o português brasileiro (BERTimbau). Em condições
semelhantes, também treinamos um segundo modelo baseado em Memória
de Longo Prazo e Recorrência (LSTM) do zero, para fins de comparação.
Nossa avaliação mostrou que o modelo ajustado obteve pontuações ROUGE
mais altas, superando o modelo baseado em LSTM em 30 pontos no F1-score.
O fine-tuning do modelo pré-treinado também se destaca em uma avaliação
qualitativa feita por avaliadores a ponto de gerar a percepção de que os resumos
gerados poderiam ter sido criados por humanos em uma coleção de documentos
específicos do domínio das Ciências da Saúde. / [en] In this work, we present a study on the fine-tuning of a pre-trained Large
Language Model for abstractive summarization of long texts in Portuguese. To
do so, we built a corpus gathering a collection of 7,450 public Health Sciences
papers in Portuguese. We fine-tuned a pre-trained BERT model for Brazilian
Portuguese (the BERTimbau) with this corpus. In a similar condition, we also
trained a second model based on Long Short-Term Memory (LSTM) from
scratch for comparison purposes. Our evaluation showed that the fine-tuned
model achieved higher ROUGE scores, outperforming the LSTM based by 30
points for F1-score. The fine-tuning of the pre-trained model also stands out in
a qualitative evaluation performed by assessors, to the point of generating the
perception that the generated summaries could have been created by humans
in a specific collection of documents in the Health Sciences domain.

Identiferoai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:64511
Date30 October 2023
CreatorsDAYSON NYWTON C R DO NASCIMENTO
ContributorsHELIO CORTES VIEIRA LOPES
PublisherMAXWELL
Source SetsPUC Rio
LanguagePortuguese
Detected LanguagePortuguese
TypeTEXTO

Page generated in 0.0023 seconds