Spelling suggestions: "subject:"análise dde links dda eeb"" "subject:"análise dde links dda beb""
1 |
SAAL - um sistema para Armazenammento e Análise de Links da WebCoelho, Roberta de Souza January 2003 (has links)
Made available in DSpace on 2014-06-12T15:59:07Z (GMT). No. of bitstreams: 2
arquivo4842_1.pdf: 796872 bytes, checksum: f32f019baff437f9e947861f8bfdf618 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2003 / O aumento do número de documentos disponíveis na World Wide Web (WWW)
traz uma série de novos desafios para a área de Recuperação de Informação (RI). As
páginas Web divergem em conteúdo e qualidade além de possuírem uma alta dinâmica.
Em adição a estes desafios os engenho de busca estão constantemente lidando com
usuários inexperientes e com páginas Web construídas com o intuito de manipular as
funções de ranking dos engenhos de busca.
Estudos recentes têm mostrado que a performance dos engenhos de busca está
longe da ideal. Apesar das evoluções tecnológicas, conseguidas até o momento,
permitirem a coleta e o armazenamento de um número cada vez maior de páginas nas
bases de índices dos engenhos de busca, a maioria destes sistemas enfrenta vários
problemas no momento de classificar as páginas de acordo com a necessidade do
usuário, em outras palavras, retornar para o usuário a informação que ele necessita.
A maioria dos engenhos de busca analisa as páginas Web como um documento
texto simples, não levando em consideração a estrutura na qual a página Web está
inserida. Diferentemente das coleções de documentos flat , a WWW corresponde a
uma coleção de documentos hipertexto que possuem informações auxiliares que vão
além do conteúdo textual, tais como a estrutura dos hiperlinks e o texto dos hiperlinks.
Estas informações são chamadas de informações hiper , que em conjunto com as
informações texto compõem o conjunto de informações que caracteriza uma página
Web.
A inadequação de estratégias singulares no processo de recuperação de
informações no ambiente Web constitui-se em um forte argumento para mostrar que as
técnicas recuperação de informação tradicionais não são suficientes no momento de
encontrar informações relevantes na Web.
Este trabalho propõe a utilização da estrutura de links da Web com o objetivo de
produzir um peso de importância global para cada página Web indexada por um
engenho de busca. Este peso, chamado peso de autoridade , é integrado aos engenhos
de busca, mais especificamente a função de ranking dos engenhos de busca que passa a
utilizar estes pesos juntamente com pesos de similaridade textual, com o objetivo de
melhorar a eficácia de recuperação do sistemaPara calcular o peso de autoridade para cada página Web foi elaborado um
algoritmo de análise de links, o Global Hybrid Hyperlinked Inducted Topic Search
(GHHITS) que foi concebido a partir do estudo dos algoritmos de análise de links préexistentes.
Para validar o algoritmo em questão foi implementado o SAAL - Sistema para
Armazenamento e Análise de Links - que propõe uma maneira eficiente de armazenar a
estrutura de links da Web, e executar o algoritmo proposto sobre esta estrutura.
Por fim, são apresentados os resultados obtidos durante os testes que avaliaram a
eficácia de recuperação de estratégias de busca que utilizaram o peso de autoridade como
componente da função de ranking.
Neste trabalho é mostrado, portanto, como as informações estruturais podem ser
utilizadas de forma a melhorar a qualidade da resposta retornada por um engenho de
busca
|
Page generated in 0.0859 seconds