Return to search

SAAL - um sistema para Armazenammento e Análise de Links da Web

Made available in DSpace on 2014-06-12T15:59:07Z (GMT). No. of bitstreams: 2
arquivo4842_1.pdf: 796872 bytes, checksum: f32f019baff437f9e947861f8bfdf618 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2003 / O aumento do número de documentos disponíveis na World Wide Web (WWW)
traz uma série de novos desafios para a área de Recuperação de Informação (RI). As
páginas Web divergem em conteúdo e qualidade além de possuírem uma alta dinâmica.
Em adição a estes desafios os engenho de busca estão constantemente lidando com
usuários inexperientes e com páginas Web construídas com o intuito de manipular as
funções de ranking dos engenhos de busca.
Estudos recentes têm mostrado que a performance dos engenhos de busca está
longe da ideal. Apesar das evoluções tecnológicas, conseguidas até o momento,
permitirem a coleta e o armazenamento de um número cada vez maior de páginas nas
bases de índices dos engenhos de busca, a maioria destes sistemas enfrenta vários
problemas no momento de classificar as páginas de acordo com a necessidade do
usuário, em outras palavras, retornar para o usuário a informação que ele necessita.
A maioria dos engenhos de busca analisa as páginas Web como um documento
texto simples, não levando em consideração a estrutura na qual a página Web está
inserida. Diferentemente das coleções de documentos flat , a WWW corresponde a
uma coleção de documentos hipertexto que possuem informações auxiliares que vão
além do conteúdo textual, tais como a estrutura dos hiperlinks e o texto dos hiperlinks.
Estas informações são chamadas de informações hiper , que em conjunto com as
informações texto compõem o conjunto de informações que caracteriza uma página
Web.
A inadequação de estratégias singulares no processo de recuperação de
informações no ambiente Web constitui-se em um forte argumento para mostrar que as
técnicas recuperação de informação tradicionais não são suficientes no momento de
encontrar informações relevantes na Web.
Este trabalho propõe a utilização da estrutura de links da Web com o objetivo de
produzir um peso de importância global para cada página Web indexada por um
engenho de busca. Este peso, chamado peso de autoridade , é integrado aos engenhos
de busca, mais especificamente a função de ranking dos engenhos de busca que passa a
utilizar estes pesos juntamente com pesos de similaridade textual, com o objetivo de
melhorar a eficácia de recuperação do sistemaPara calcular o peso de autoridade para cada página Web foi elaborado um
algoritmo de análise de links, o Global Hybrid Hyperlinked Inducted Topic Search
(GHHITS) que foi concebido a partir do estudo dos algoritmos de análise de links préexistentes.
Para validar o algoritmo em questão foi implementado o SAAL - Sistema para
Armazenamento e Análise de Links - que propõe uma maneira eficiente de armazenar a
estrutura de links da Web, e executar o algoritmo proposto sobre esta estrutura.
Por fim, são apresentados os resultados obtidos durante os testes que avaliaram a
eficácia de recuperação de estratégias de busca que utilizaram o peso de autoridade como
componente da função de ranking.
Neste trabalho é mostrado, portanto, como as informações estruturais podem ser
utilizadas de forma a melhorar a qualidade da resposta retornada por um engenho de
busca

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/2539
Date January 2003
CreatorsCoelho, Roberta de Souza
ContributorsMeira, Silvio Romero de Lemos
PublisherUniversidade Federal de Pernambuco
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0028 seconds