Os motores de busca utilizam o WebGraph formado pelas páginas e seus links para atribuir reputação às páginas Web. Essa reputação é utilizada para montar o ranking de resultados retornados ao usuário. No entanto, novas versões de páginas com uma boa reputação acabam por distribuir os votos de reputação entre todas as versões, trazendo prejuízo à página original e também as suas versões. O objetivo deste trabalho é especificar novos escores que considerem todas as versões de uma página Web para atribuir reputação para as mesmas. Para atingir esse objetivo, foram propostos quatro escores que utilizam a detecção de versões para atribuir uma reputação mais homogênea às páginas que são versões de um mesmo documento. Os quatro escores propostos podem ser classificados em duas categorias: os que realizam mudanças estruturais no WebGraph (VersionRank e VersionPageRank) e os que realizam operações aritméticas sobre os escores obtidos pelo algoritmo de PageRank (VersionSumRank e VersionAverageRank). Os experimentos demonstram que o VersionRank tem desempenho 26,55% superior ao PageRank para consultas navegacionais sobre a WBR03 em termos de MRR, e em termos de P@10, o VersionRank tem um ganho de 9,84% para consultas informacionais da WBR99. Já o escore VersionAverageRank, apresentou melhores resultados na métrica P@10 para consultas informacionais na WBR99 e WBR03. Na WBR99, os ganhos foram de 6,74% sobre o PageRank. Na WBR03, para consultas informacionais aleatórias o escore VersionAverageRank obteve um ganho de 35,29% em relação ao PageRank. / Search engines use WebGraph formed by the pages and their links to assign reputation to Web pages. This reputation is used for ranking show for the user. However, new versions of pages with a good reputation distribute your votes of reputation among all versions, damaging the reputation of original page and also their versions. The objective of this work is to specify the new scores to consider all versions of a Web page to assign reputation to them. To achieve this goal, four scores were proposed using the version detection to assign a more homogeneous reputation to the pages that are versions of the same document. The four scores proposed can be classified into two categories: those who perform structural changes in WebGraph (VersionRank and VersionPageRank) and those who performs arithmetic operations on the scores obtained by the PageRank algorithm (VersionSumRank and VersionAverageRank). The experiments show that the performance VersionRank is 26.55% higher than the PageRank for navigational queries on WBR03 in terms of MRR, and in terms of P@10, the VersionRank has a gain of 9.84% for the WBR99 informational queries. The score VersionAverageRank showed better results in the metric P@10 for WBR99 and WBR03 information queries. In WBR99, it had a gain of 6.74% compared to PageRank. In WBR03 for random informational queries, VersionAverageRank showed an increase of 35.29% compared to PageRank.
Identifer | oai:union.ndltd.org:IBICT/oai:lume.ufrgs.br:10183/25491 |
Date | January 2009 |
Creators | Silva, Glauber Rodrigues da |
Contributors | Galante, Renata de Matos |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UFRGS, instname:Universidade Federal do Rio Grande do Sul, instacron:UFRGS |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0022 seconds