Return to search

Reconhecimento de entidades nomeadas na ?rea da geologia : bacias sedimentares brasileiras

Submitted by PPG Ci?ncia da Computa??o (ppgcc@pucrs.br) on 2018-05-03T18:01:24Z
No. of bitstreams: 1
DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) / Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2018-05-14T19:20:24Z (GMT) No. of bitstreams: 1
DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) / Made available in DSpace on 2018-05-14T19:35:09Z (GMT). No. of bitstreams: 1
DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5)
Previous issue date: 2017-09-14 / The treatment of textual information has been increasingly relevant in many do- mains. One of the first tasks for extracting information from texts is the Named Entities Recognition (NER), which consists of identifying references to certain entities and finding out their classification. There are many NER domains, among them the most usual are medicine and biology. One of the challenging domains in the recognition of Named Entities (NE) is the Geology domain, which is an area lacking computational linguistic resources. This thesis proposes a method for the recognition of relevant NE in the field of Geology, specifically to the subarea of Brazilian Sedimentary Basin, in Portuguese texts. Generic and geological features were defined for the generation of a machine learning model. Among the automatic approaches to NE classification, the most prominent is the Conditional Ran- dom Fields (CRF) probabilistic model. CRF has been effectively used for word processing in natural language. To generate our model, we created GeoCorpus, a reference corpus for Geological NER, annotated by specialists. Experimental evaluations were performed to compare the proposed method with other classifiers. The best results were achieved by CRF, which shows 76,78% of Precision and 54,33% of F-Measure. / O tratamento da informa??o textual torna-se cada vez mais relevante para muitos dom?nios. Nesse sentido, uma das primeira tarefas para Extra??o de Informa??es a partir de textos ? o Reconhecimento de Entidades Nomeadas (REN), que consiste na identifica??o de refer?ncias feitas a determinadas entidades e sua classifica??o. REN compreende muitos dom?nios, entre eles os mais usuais s?o medicina e biologia. Um dos dom?nios desafiadores no reconhecimento de EN ? o de Geologia, sendo essa uma ?rea carente de recursos lingu?sticos computacionais. A presente tese prop?e um m?todo para o reconhecimento de EN relevantes no dom?nio da Geologia, sub?rea Bacia Sedimentar Brasileira, em textos da l?ngua portuguesa. Definiram-se features gen?ricas e geol?gicas para a gera??o do modelo de aprendizado. Entre as abordagens autom?ticas para classifica??o de EN, a mais proeminente ? o modelo probabil?stico Conditional Random Fields (CRF). O CRF tem sido utilizado eficazmente no processamento de textos em linguagem natural. A fim de gerar um modelo de aprendizado foi criado o GeoCorpus, um corpus de refer?ncia para REN Geol?gicas, anotado por especialistas. Avalia??es experimentais foram realizadas com o objetivo de comparar o m?todo proposto com outros classificadores. Destacam-se os melhores resultados para o CRF, o qual alcan?ou 76,78% e 54,33% em Precis?o e Medida-F.

Identiferoai:union.ndltd.org:IBICT/oai:tede2.pucrs.br:tede/8035
Date14 September 2017
CreatorsAmaral, Daniela Oliveira Ferreira do
ContributorsVieira, Renata
PublisherPontif?cia Universidade Cat?lica do Rio Grande do Sul, Programa de P?s-Gradua??o em Ci?ncia da Computa??o, PUCRS, Brasil, Escola Polit?cnica
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da PUC_RS, instname:Pontifícia Universidade Católica do Rio Grande do Sul, instacron:PUC_RS
Rightsinfo:eu-repo/semantics/openAccess
Relation1974996533081274470, 500, 500, -862078257083325301

Page generated in 0.0022 seconds