Global ETD Search

Return to search

Um framework para extração de informações: uma abordagem baseada em XML

Made available in DSpace on 2014-06-12T16:01:08Z (GMT). No. of bitstreams: 2
arquivo7169_1.pdf: 1406961 bytes, checksum: c55f5388badc5c0c67457d0f7e47902c (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2005 / Com o crescimento da Internet, muitas informações vêm se tornando rapidamente
disponíveis, a cada ano, devido à facilidade do processo de publicação digital. Porém, a
existência de diferentes formatos de representação (HTML, PS, RTF, etc.) e de
conteúdo (estruturado, semi-estruturado e livre) torna o gerenciamento eficiente de
documentos uma tarefa altamente complexa. Os atuais tratamentos de busca são pouco
eficientes, deixando a obtenção das informações contidas no documento a cargo da
atividade humana.
Dentro dessa conjuntura, destacam-se os sistemas de Extração de Informação para
obtenção de informações encontradas em documentos-texto, visando à realização de um
processamento posterior. Porém, tais sistemas ainda são muito difíceis de ser
desenvolvidos, exigindo conhecimentos de especialistas em Inteligência Artificial e no
domínio dos documentos a serem analisados. Tal complexidade estimulou as pesquisas
de sistemas, cada vez mais, genéricos para os mais variados domínios de textos simples
e HTML. Contudo, para diferentes fontes de entrada e saída e formatos de documentos
utilizados, pouco ou nenhum cuidado vem sendo dado em relação à flexibilidade e
extensibilidade desses sistemas.
Esta dissertação propõe um framework, baseado em XML, para o
desenvolvimento de sistemas de extração capazes de lidar com diferentes formatos de
entrada e saída. Esses formatos representam as funcionalidades específicas,
implementadas para cada uma de suas instâncias, enquanto as funcionalidades
reutilizadas no domínio do problema são definidas pelo algoritmo de extração
empregado. Dentre as diversas técnicas de extração de informações e aprendizagem de
máquinas existentes, foi usada uma abordagem semi-automática baseada no algoritmo
de indução definido no STALKER. Experimentos efetuados sobre artigos científicos
mostram que o framework proposto é aplicável aos formatos de entrada PDF, PS, DOC,
RTF e HTML; obtendo-se resultados satisfatórios quando comparados aos de sistemas
já consolidados

Framework

Engenharia de Software

Documentos

XML

Inteligência Artificial

Aprendizagem de Máquina

Extração de Informação

Identifer	oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/2780
Date	January 2005
Creators	Medeiros Cabral, Davi
Contributors	Souto Maior de Barros, Roberto
Publisher	Universidade Federal de Pernambuco
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Source	reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0021 seconds

Um framework para extração de informações: uma abordagem baseada em XML

Description

Links & Downloads

Tags

Additional Fields