Return to search

Um framework para transformação automática de documentos e extração de informações baseado em XML

Made available in DSpace on 2014-06-12T16:00:03Z (GMT). No. of bitstreams: 2
arquivo5835_1.pdf: 1345974 bytes, checksum: a8195e26dbc8a8b67dc9b1d0a6816814 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2007 / Uma grande quantidade de informações, sobre diversos assuntos, se encontra disponível
na Web. Essa quantidade cresce ano a ano e, aliados às informações, estão os formatos
com que elas estão representadas (PDF, DOC, RTF, HTML, TEX, por exemplo.).
Certos formatos dependem de tecnologias e/ou plataformas específicas, dificultando
assim o acesso às informações contidas no documento. Tendo em vista esse problema,
surge a necessidade de se ter formas para a conversão entre formatos específicos.
Muitas ferramentas são oferecidas nesse sentido, porém geralmente oferecem poucas
possibilidades de conversão, um ou dois formatos em média.
Outro problema gerado pela grande quantidade de informações disponíveis na
Web é a questão da filtragem do que realmente é interessante ao usuário que efetua uma
busca sobre determinado assunto. Os atuais buscadores trazem como resultados
documentos completos com diversas informações além das necessárias ao usuário. A
análise do que é ou não interessante fica a cargo do próprio usuário, tornando-se um
trabalho manual. A extração automática de informações nos documentos dispostos na
Web se torna difícil, pois nem todos os documentos apresentam seus conteúdos de
forma estruturada, mas sim, muitos deles apresentam conteúdos semi-estruturados ou
ainda, não-estruturados.
Na tentativa de amenizar alguns desses problemas foi proposta a construção de
um Framework para conversão entre formatos de documentos e extração de
informações dos mesmos. Esse Framework é constituído de dois módulos que utilizam
o formato XML como intermediador na conversão requerida. Esses módulos são: (1) o
de conversão de formatos de entrada específicos para XML, que também é responsável
pela extração de informação dos documentos; e (2) o de conversão de XML para
formatos de saída específicos. Com a utilização do XML, os documentos convertidos
tornam-se estruturados, facilitando assim o processo automático de extração de
informações.
Esta dissertação abrange o primeiro módulo descrito acima e parte de resultados
alcançados por outro trabalho previamente realizado, onde foram construídas
funcionalidades para os formatos de entrada PDF, PS, DOC, RTF e HTML. As
contribuições propostas a partir deste trabalho são: adição do formato TEX (LaTeX)
como mais uma possibilidade de entrada; e reorganizar a arquitetura do Framework
previamente desenvolvido, para que este seja acessado como um serviço Web,
utilizando os conceitos de Web Services

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/2665
Date January 2007
CreatorsRoberto Bechert Schmitz, Lucas
Contributorsda Fonseca de Souza, Fernando
PublisherUniversidade Federal de Pernambuco
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0024 seconds