Made available in DSpace on 2014-06-12T15:53:44Z (GMT). No. of bitstreams: 2
arquivo1927_1.pdf: 1553346 bytes, checksum: 9cb96fb0a0fd3a50810d1ec103dedc95 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2009 / A Extração de Informação (EI) compreende técnicas e algoritmos que realisam
duas tarefas importantes: a identificação de informações desejadas a partir de
documentos estruturados e não-estruturados, e o armazenamento dessas
informações em um formato apropriado para uso futuro. Este trabalho concentrase
nos sistemas d'EI adaptativos que podem ser customizados para novos
domínios através de um processo de treinamento (Machine Learning) usando
coleções de documentos anotados como entrada. Particularmente, técnicas de
induçao automática de wrappers são estudadas para extração de informação que
se baseiam na exploração de regularidades estruturais encontradas em documentos
Web. Wrappers são procedimentos para extrair dados de documentos. A indução
de wrappers é definida como uma técnica de extração de informação que usa
algoritmos de aprendizado de máquina para automaticamente construir wrappers a
partir de um corpus previamente anotado e que tem mostrado bons resultados
quando aplicada em textos estruturados, semi-estruturados e livres (em linguagem
natural). Este trabalho propõe um sistema d'EI baseado em Boosted Wrapper
Induction (BWI), um algoritmo de indução de wrappers supervisionado no qual
um outro algoritmo, o AdaBoost, é usado para gerar um procedimento genérico de
extração que combina, no final do processo, um conjunto de wrapers específicos
por voto ponderado. Alguns autores tem estudado como as técnicas de boosting
contribuem ao sucesso do algorithmo BWI e examinado sua perfomance tomando
a direção desafiadora de usá-lo como um método de extração de informação para
documentos não-estruturados em linguaguem natural. Este fato foi a principal
motivação para se incluir Parts-of-Speech (POS) tagging na fase de préprocessamento
do sistema d'EI ora proposto. Afim de se avaliar o desempenho do
sistema, vários experimentos foram executados usando-se três corpora como
testbed para a tarefa de extração de informação no preenchimento de esquemas de
extração (template filling task). Outros experimentos foram também conduzidos
usando-se diversas combinações de atributos para sistematicamente avaliar os
efeitos que esses últimos têm no desempenho do algoritmo de aprendizado. Os
resultados obtidos experimentalmente mostraram que o desempenho geral do
sistema proposto é comparável a outros sistemas de EI do estado da arte
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/2000 |
Date | 31 January 2009 |
Creators | José de Lima, Rinaldo |
Contributors | Luiz Goncalves de Freitas, Frederico |
Publisher | Universidade Federal de Pernambuco |
Source Sets | IBICT Brazilian ETDs |
Language | fra |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0022 seconds