Global ETD Search

Estudo comparativo de diferentes classificadores baseados em aprendizagem de m?quina para o processo de Reconhecimento de Entidades Nomeadas

Submitted by Jadson Francisco de Jesus SILVA (jadson@uefs.br) on 2018-01-24T22:42:26Z
No. of bitstreams: 1
JadsonDisst.pdf: 3499973 bytes, checksum: 5deaf9020f758e9c07f86e9e62890129 (MD5) / Made available in DSpace on 2018-01-24T22:42:26Z (GMT). No. of bitstreams: 1
JadsonDisst.pdf: 3499973 bytes, checksum: 5deaf9020f758e9c07f86e9e62890129 (MD5)
Previous issue date: 2016-09-09 / The Named Entity Recognition (NER) process is the task of identifying relevant termsintextsandassigningthemalabel.Suchwordscanreferencenamesofpeople, organizations, and places. The variety of techniques that can be used in the named entityrecognitionprocessislarge.Thetechniquescanbeclassifiedintothreedistinct approaches: rule-based, machine learning and hybrid. Concerning to the machine learningapproaches,severalfactorsmayinfluenceitsaccuracy,includingtheselected classifier, the set of features extracted from the terms, the characteristics of the textual bases, and the number of entity labels. In this work, we compared classifiers that use machine learning applied to the NER task. The comparative study includes classifiers based on CRF (Conditional Random Fields), MEMM (MaximumEntropy Markov Model) and HMM (Hidden Markov Model), which are compared in two corpora in Portuguese derived from WikiNer, and HAREM, and two corporas in English derived from CoNLL-03 and WikiNer. The comparison of the classifiers shows that the CRF is superior to the other classifiers, both with Portuguese and English texts. This study also includes the comparison of the individual and joint contribution of features, including contextual features, besides the comparison ofthe NER per named entity labels, between classifiers andcorpora. / O processo de Reconhecimento de Entidades Nomeadas (REN) ? a tarefa de iden- tificar termos relevantes em textos e atribu?-los um r?tulo. Tais palavras podem referenciar nomes de pessoas, organiza??es e locais. A variedade de t?cnicas que podem ser usadas no processo de reconhecimento de entidades nomeadas ? grande. As t?cnicas podem ser classificadas em tr?s abordagens distintas: baseadas em regras, baseadas em aprendizagem de m?quina e h?bridas. No que diz respeito as abordagens de aprendizagem de m?quina, diversos fatores podem influenciar sua exatida?, incluindo o classificador selecionado, o conjunto de features extra?das dos termos, as caracter?sticas das bases textuais e o n?mero de r?tulos de entidades. Neste trabalho, comparamos classificadores que utilizam aprendizagem de m?quina aplicadas a tarefa do REN. O estudo comparativo inclui classificadores baseados no CRF (Condicional Random Fields), MEMM (Maximum Entropy Markov Model) e HMM (Hidden Markov Model), os quais s?o comparados em dois corporas em portugu?s derivados do WikiNer, e HAREM, e dois corporas em ingl?s derivados doCoNLL-03 e WikiNer. A compara??o dos classificadores demonstra que o CRF ? superior aos demais classificadores, tanto com textos em portugu?s, quanto ingl?s. Este estudo tamb?m inclui a compara??o da contribui??o, individual e em conjunto de features, incluindo features de contexto, al?m da compara??o do REN por r?otulos de entidades nomeadas, entre os classificadores e os corpora.

Reconhecimento de Entidades Nomeadas

Aprendizagem de M?quina

Extra??o de Informa??o

Processamento de Linguagem Natural

Named Entity Recognition

Machine Learning

Information Extraction

Natural Linguage Process

Identifer	oai:union.ndltd.org:IBICT/oai:tede2.uefs.br:8080:tede/554
Date	09 September 2016
Creators	Santos, Jadson da Silva
Contributors	Rocha J?nior, Jo?o Batista da
Publisher	Universidade Estadual de Feira de Santana, Mestrado em Computa??o Aplicada, UEFS, Brasil, DEPARTAMENTO DE TECNOLOGIA
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	English
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Format	application/pdf
Source	reponame:Biblioteca Digital de Teses e Dissertações da UEFS, instname:Universidade Estadual de Feira de Santana, instacron:UEFS
Rights	info:eu-repo/semantics/openAccess
Relation	303317282311144204, 600, 600, 600, 4335108523020347051, -651669516009542875

Page generated in 0.0029 seconds

Estudo comparativo de diferentes classificadores baseados em aprendizagem de m?quina para o processo de Reconhecimento de Entidades Nomeadas

Description

Links & Downloads

Tags

Additional Fields