Um framework para extração de informações: uma abordagem baseada em XML

Made available in DSpace on 2014-06-12T16:01:08Z (GMT). No. of bitstreams: 2
arquivo7169_1.pdf: 1406961 bytes, checksum: c55f5388badc5c0c67457d0f7e47902c (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2005 / Com o crescimento da Internet, muitas informações vêm se tornando rapidamente
disponíveis, a cada ano, devido à facilidade do processo de publicação digital. Porém, a
existência de diferentes formatos de representação (HTML, PS, RTF, etc.) e de
conteúdo (estruturado, semi-estruturado e livre) torna o gerenciamento eficiente de
documentos uma tarefa altamente complexa. Os atuais tratamentos de busca são pouco
eficientes, deixando a obtenção das informações contidas no documento a cargo da
atividade humana.
Dentro dessa conjuntura, destacam-se os sistemas de Extração de Informação para
obtenção de informações encontradas em documentos-texto, visando à realização de um
processamento posterior. Porém, tais sistemas ainda são muito difíceis de ser
desenvolvidos, exigindo conhecimentos de especialistas em Inteligência Artificial e no
domínio dos documentos a serem analisados. Tal complexidade estimulou as pesquisas
de sistemas, cada vez mais, genéricos para os mais variados domínios de textos simples
e HTML. Contudo, para diferentes fontes de entrada e saída e formatos de documentos
utilizados, pouco ou nenhum cuidado vem sendo dado em relação à flexibilidade e
extensibilidade desses sistemas.
Esta dissertação propõe um framework, baseado em XML, para o
desenvolvimento de sistemas de extração capazes de lidar com diferentes formatos de
entrada e saída. Esses formatos representam as funcionalidades específicas,
implementadas para cada uma de suas instâncias, enquanto as funcionalidades
reutilizadas no domínio do problema são definidas pelo algoritmo de extração
empregado. Dentre as diversas técnicas de extração de informações e aprendizagem de
máquinas existentes, foi usada uma abordagem semi-automática baseada no algoritmo
de indução definido no STALKER. Experimentos efetuados sobre artigos científicos
mostram que o framework proposto é aplicável aos formatos de entrada PDF, PS, DOC,
RTF e HTML; obtendo-se resultados satisfatórios quando comparados aos de sistemas
já consolidados

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/2780
Date January 2005
CreatorsMedeiros Cabral, Davi
ContributorsSouto Maior de Barros, Roberto
PublisherUniversidade Federal de Pernambuco
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0026 seconds