Global ETD Search

Return to search

Extração de informação usando integração de componentes de PLN através do framework GATE

Made available in DSpace on 2014-06-12T15:53:11Z (GMT). No. of bitstreams: 2
arquivo1907_1.pdf: 1663192 bytes, checksum: 21a772bd61ef448147054bfaa52598d1 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2009 / A Extração de Informação (EI) é o ramo da área de recuperação de informação
que utiliza técnicas e algoritmos para identificar e coletar informações
desejadas a partir de documentos, sejam estes estruturados ou não,
armazenando-as em um formato apropriado para consultas futuras. Dentre
estas tecnologias, o uso de Processamento de Linguagem Natural (PLN)
revela-se benéfico ao processo de extração, principalmente quando se
processam documentos sem nenhuma estrutura e/ou padrão definido. Existe
uma suíte que reúne dezenas de plugins que podem ajudar na tarefa de EI
baseada em PLN, conhecida como GATE (General Architecture for Text
Engineering). Neste trabalho propõe-se o módulo RELPIE, contendo alguns
destes plugins para a extração a partir de texto livre. O módulo RELPIE é
original, e emprega plugins GATE baseados em padrões de expressões
regulares (ER) e regras de produção. Estas regras ficam totalmente separadas
do sistema, visando modularidade na extração de informação a partir de
documentos estruturados ou não. Os resultados obtidos nos experimentos
demonstram que o módulo RELPIE apresenta bons níveis de extração com
corpus compreendido por documentos textuais sem qualquer estrutura,
alcançando um reconhecimento acima de 80% em média. Efetuando uma
comparação com o sistema ANNIE (A Nearly-New Information Extraction
System), resultados mostram que esse sistema é mais preciso em relação ao
nosso, entretanto o sistema RELPIE mostra-se melhor na cobertura e no fmeasure.
Um dos experimentos revelou outra descoberta interessante: corpora
já processados denotam melhores resultados nas execuções posteriores, em
média 6% na precisão, o que sugere que corpora não anotados devem ser
processados duas vezes em seqüência para a obtenção de melhor
performance na tarefa de extração, especialmente quando envolve entidades
nomeadas e quando se usam ontologias para extraí-las

Inteligência Artificial

Extração de Informação

Processamento de Linguagem Natural

Ontologias

Identifer	oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/1927
Date	31 January 2009
Creators	de Souza Cabral, Luciano
Contributors	Luiz Goncalves de Freitas, Frederico
Publisher	Universidade Federal de Pernambuco
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Source	reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0027 seconds

Extração de informação usando integração de componentes de PLN através do framework GATE

Description

Links & Downloads

Tags

Additional Fields