Return to search

Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação

Made available in DSpace on 2015-05-14T12:36:35Z (GMT). No. of bitstreams: 1
arquivototal.pdf: 1730516 bytes, checksum: 167ec230d84a25e110ad4386ec5aae74 (MD5)
Previous issue date: 2012-04-20 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The explosive growth of web-based information systems has created various sources and vast
quantities of semi-structured data, which need to be indexed by search engines in order to
allow the retrieval of documents according to user needs. However, one of the major
challenges in the development of indexing techniques for semi-structured data is related to
how to index not only textual but also structural content. The main issue is how to efficiently
handle branching path expressions without introducing precision loss as well as undesired
growth of query processing costs and index file sizes. Several proposals for indexing semistructured
data can be found in the literature. Despite their relevant contributions, existing
proposals suffer from at least one of the problems related to precision loss, storage space
requirements and query processing costs. In such a context, this thesis proposes an efficient,
lossless path-based indexing technique (named as BranchGuide) for semi-structured data,
which deals with a well-defined class of branching path expressions. This well-defined class
includes branching paths that allow expressing parent-child dependencies between elements
in which may be imposed restrictions over the textual value of attributes of such elements. As
evinced by experimental evaluation, the adoption of the BranchGuide technique results in
excellent query processing time and generates smaller index file sizes than a structural join
indexing technique. / O surgimento de sistemas baseados na Web tem gerado uma vasta quantidade de fontes de
documentos semi-estruturados, os quais necessitam ser indexados por sistemas de busca a fim
de possibilitar a descoberta de documentos de acordo com necessidades de informação do
usuário. Entretanto, um dos maiores desafios no desenvolvimento de técnicas de indexação
para documentos semi-estruturados diz respeito a como indexar não somente o conteúdo
textual, mas também a informação estrutural dos documentos. O principal problema está em
prover suporte para consultas com ramificação sem introduzir fatores que causem perda de
precisão aos resultados de pesquisa, bem como, o crescimento indesejado do tempo de
processamento de consultas e dos tamanhos de índice. Várias técnicas de indexação para
dados semi-estruturados são encontradas na literatura. Apesar das relevantes contribuições, as
propostas existentes sofrem com problemas relacionados à perda de precisão, requisitos de
armazenamento ou custos de processamento de consultas. Neste contexto, nesta dissertação é
proposta uma técnica de indexação (denominada BranchGuide) para dados semi-estruturados
que suporta uma bem definida classe de consultas com ramificação sem perda de precisão.
Esta classe compreende caminhos com ramificação que permitem expressar dependências paifilho
entre elementos nos quais podem ser impostas restrições sob os valores de atributos de
tais elementos. Como evidenciado experimentalmente, a adoção da técnica BranchGuide gera
excelentes tempos de processamento de consulta e tamanhos de índice menores do que os
gerados por uma técnica de interseção estrutural.

Identiferoai:union.ndltd.org:IBICT/oai:tede.biblioteca.ufpb.br:tede/6076
Date20 April 2012
CreatorsViana, Talles Brito
ContributorsSilveira, Glêdson Elias da
PublisherUniversidade Federal da Paraí­ba, Programa de Pós-Graduação em Informática, UFPB, BR, Informática
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da UFPB, instname:Universidade Federal da Paraíba, instacron:UFPB
Rightsinfo:eu-repo/semantics/openAccess
Relation4679641312648529202, 600, 600, 600, 600, 7879657947546587587, 3671711205811204509, 2075167498588264571

Page generated in 0.0129 seconds