Return to search

Extraction d information adaptative de pages web par induction supervisée d extracteurs

Made available in DSpace on 2014-06-12T15:53:44Z (GMT). No. of bitstreams: 2
arquivo1927_1.pdf: 1553346 bytes, checksum: 9cb96fb0a0fd3a50810d1ec103dedc95 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2009 / A Extração de Informação (EI) compreende técnicas e algoritmos que realisam
duas tarefas importantes: a identificação de informações desejadas a partir de
documentos estruturados e não-estruturados, e o armazenamento dessas
informações em um formato apropriado para uso futuro. Este trabalho concentrase
nos sistemas d'EI adaptativos que podem ser customizados para novos
domínios através de um processo de treinamento (Machine Learning) usando
coleções de documentos anotados como entrada. Particularmente, técnicas de
induçao automática de wrappers são estudadas para extração de informação que
se baseiam na exploração de regularidades estruturais encontradas em documentos
Web. Wrappers são procedimentos para extrair dados de documentos. A indução
de wrappers é definida como uma técnica de extração de informação que usa
algoritmos de aprendizado de máquina para automaticamente construir wrappers a
partir de um corpus previamente anotado e que tem mostrado bons resultados
quando aplicada em textos estruturados, semi-estruturados e livres (em linguagem
natural). Este trabalho propõe um sistema d'EI baseado em Boosted Wrapper
Induction (BWI), um algoritmo de indução de wrappers supervisionado no qual
um outro algoritmo, o AdaBoost, é usado para gerar um procedimento genérico de
extração que combina, no final do processo, um conjunto de wrapers específicos
por voto ponderado. Alguns autores tem estudado como as técnicas de boosting
contribuem ao sucesso do algorithmo BWI e examinado sua perfomance tomando
a direção desafiadora de usá-lo como um método de extração de informação para
documentos não-estruturados em linguaguem natural. Este fato foi a principal
motivação para se incluir Parts-of-Speech (POS) tagging na fase de préprocessamento
do sistema d'EI ora proposto. Afim de se avaliar o desempenho do
sistema, vários experimentos foram executados usando-se três corpora como
testbed para a tarefa de extração de informação no preenchimento de esquemas de
extração (template filling task). Outros experimentos foram também conduzidos
usando-se diversas combinações de atributos para sistematicamente avaliar os
efeitos que esses últimos têm no desempenho do algoritmo de aprendizado. Os
resultados obtidos experimentalmente mostraram que o desempenho geral do
sistema proposto é comparável a outros sistemas de EI do estado da arte

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/2000
Date31 January 2009
CreatorsJosé de Lima, Rinaldo
ContributorsLuiz Goncalves de Freitas, Frederico
PublisherUniversidade Federal de Pernambuco
Source SetsIBICT Brazilian ETDs
Languagefra
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0021 seconds