Return to search

Uma proposta de interface de consulta para recuperação de informação em documentos semi-estruturados

Conselho Nacional de Desenvolvimento Científico e Tecnológico / Semi-Structured Information Retrieval is an intermediate way to retrieve information
between Textual Retrieval and Structured Retrieval (typical in relational database systems).
In structured retrieval systems, users generally know the available data structure
and query languages, so they can formulate queries that produce more accurate results. In
textual retrieval users dont known the data structure and formulate queries with keywords
only, which produces not so accurate results. In Semi-Structured Retrieval, users generally
dont known the data structure and formulate queries that mix textual search and structured
retrieval mechanisms. In this context, the problem of how to improve the results
accuracy using the structure inside semi-structured documents appears. Semi-structured
data is usually stored as XML documents and can be seen as trees. Internal nodes of
these trees have the structure of documents, while leaf nodes contain text. The design
of interfaces for users in this context is one of the biggest challenges in semi-structured
information retrieval. This occurs especially because the users dont known the document
structure and have problems in formulating structured queries. This dissertation presents
a proposal and a prototype interface developed to help users in the process of formulation
of structured queries. The aim is to increase the precision in the results of the queries.
The proposal is validated by experiments involving volunteers users and by comparing
the results of textual queries and structured queries made with the help of the interface.
The improvement reaches 440% for well structured queries, with a user who knows the
interface, and 179.75% for reasonably structured queries, by users without experience to
use the interface. / A Recuperação Semi-Estruturada é uma forma de recuperação de informação intermediária
entre a Recuperação Textual e a Recuperação Estruturada (típica em sistemas
de banco de dados relacionais). Em sistemas de recuperação estruturada, o usuário geralmente
conhece a estrutura dos dados e as linguagens de consulta disponíveis, conseguindo
assim formular consultas que produzem resultados mais precisos. Na Recuperação Textual
o usuário não conhece a estrutura dos dados e formula as consultas apenas com palavraschaves,
as quais geram resultados não tão precisos. Na Recuperação Semi-Estruturada,
o usuário geralmente desconhece a estrutura dos dados e formula consultas que mesclam
buscas textuais e mecanismos de recuperação estruturada. Neste contexto, surge o problema
de como melhorar a precisão dos resultados aproveitando a estrutura contida nos
documentos semi-estruturados. Dados semi-estruturados são comummente armazenados
como documentos XML, os quais podem ser vistos como árvores. Nós internos dessas
árvores contem a estrutura do documento enquanto os nós folhas contêm os dados. O
projeto de interfaces para usuários neste contexto é um dos grandes desafios na recuperação
semi-estruturada. Isso ocorre especialmente porque os usuários não conhecem a
estrutura do documento e têm dificuldade na formulação de consultas estruturadas. Este
trabalho apresenta uma proposta e um protótipo de interface desenvolvido para auxiliar
os usuários no processo de formulação de consultas estruturadas. Pretende-se com isso
aumentar a precisão nos resultados das consultas. A proposta é validada por meio de
experimentos envolvendo usuários voluntários e pela comparação de resultados obtidos
com consultas textuais e consultas estruturadas formuladas com o auxílio da ferramenta.
A melhoria atinge 440% para consultas bem estruturadas, realizadas por usuário que conhece
bem a interface, e 179,75% para consultas razoavelmente estruturadas, realizadas
por usuários sem experiência no uso da interface. / Mestre em Ciência da Computação

Identiferoai:union.ndltd.org:IBICT/urn:repox.ist.utl.pt:RI_UFU:oai:repositorio.ufu.br:123456789/12474
Date19 February 2009
CreatorsJunqueira, Mirella Silva
ContributorsSilva, Ilmério Reis da, Souza, João Nunes de, Torres, Ricardo da Silva
PublisherUniversidade Federal de Uberlândia, Programa de Pós-graduação em Ciência da Computação, UFU, BR, Ciências Exatas e da Terra
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Repositório Institucional da UFU, instname:Universidade Federal de Uberlândia, instacron:UFU
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0026 seconds