[pt] As técnicas de processamento de linguagem natural (NLP) estão se tornando
populares recentemente. A gama de aplicativos que se beneficiam de
NLP é extensa, desde criar sistemas de tradução automática até ajudar no
marketing de um produto. Dentro de NLP, o campo de Extração de Informações
(IE) é difundido; concentra-se no processamento de textos para recuperar
informações específicas sobre uma determinada entidade ou conceito. Ainda
assim, a comunidade de pesquisa se concentra principalmente na construção
de modelos para dados na língua inglesa. Esta tese aborda três tarefas no
domínio do IE: Reconhecimento de Entidade Nomeada, Extração de Relações
Semânticas e Extração Conjunta de Entidade e Relação. Primeiro, criamos um
novo conjunto de dados em português no domínio biomédico, descrevemos o
processo de anotação e medimos suas propriedades. Além disso, desenvolvemos
um novo modelo para a tarefa de Extração Conjunta de Entidade e Relação,
verificando que o mesmo é competitivo em comparação com outros modelos.
Finalmente, avaliamos cuidadosamente os modelos propostos em textos de idiomas
diferentes do inglês e confirmamos a dominância de modelos baseados
em redes neurais. / [en] Natural language processing (NLP) techniques are becoming popular recently.
The range of applications that benefit from NLP is extensive, from
building machine translation systems to helping market a product. Within
NLP, the Information Extraction (IE) field is widespread; it focuses on processing
texts to retrieve specific information about a particular entity or concept.
Still, the research community mainly focuses on building models for English
data. This thesis addresses three tasks in the IE domain: Named Entity Recognition, Relation Extraction, and Joint Entity and Relation Extraction. First,
we created a novel Portuguese dataset in the biomedical domain, described the
annotation process, and measured its properties. Also, we developed a novel
model for the Joint Entity and Relation Extraction task, verifying that it is
competitive compared to other models. Finally, we carefully evaluated proposed
models on non-English language datasets and confirmed the dominance of
neural-based models.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:60909 |
Date | 24 October 2022 |
Creators | LUCAS AGUIAR PAVANELLI |
Contributors | EDUARDO SANY LABER, EDUARDO SANY LABER |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | English |
Detected Language | Portuguese |
Type | TEXTO |
Page generated in 0.0023 seconds