Return to search

[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES / [pt] ESTUDO COMPARATIVO DE ESTRATÉGIAS DE CLASSIFICAÇÃO DE PÁGINAS WEB

[pt] A quantidade de informações na Internet aumenta a cada dia. Embora esta
proliferação aumente as chances de que o tema sendo buscado por um usuário
esteja presente na rede, ela também torna encontrar a informação desejada mais
difícil. A classificação automática de páginas é, portanto, uma importante
ferramenta na organização de conteúdo da Web, com aplicações específicas na
melhoria dos resultados retornados por máquinas de busca. Nesta dissertação foi
realizado um estudo comparativo de diferentes conjuntos de atributos e métodos
de classificação aplicados ao problema da classificação funcional de páginas web,
com foco em 4 classes: Blogs, Blog Posts, Portais de Notícias e Notícias. Ao
longo dos experimentos, foi possível constatar que a melhor abordagem para esta
tarefa é a utilização de atributos tanto da estrutura quanto do texto das páginas.
Foi apresentada também uma estratégia nova de construção de conjuntos de
atributos de texto, que leva em consideração os diferentes estilos de escrita das
classes de páginas. / [en] The amount of information on the Internet increases every day. Even though
this proliferation increases the chances that the subject being searched for by an
user is on the Web, it also makes finding the desired information much harder.
The automated classification of pages is, therefore, an important tool for
organizing Web content, with specific applications on the improvement of results
displayed by search engines. In this dissertation, a comparative study of different
attribute sets and classification methods for the functional classification of web
pages was made, focusing on 4 classes: Blogs, Blog Posts, News Portals and
News. Throughout the experiments, it became evident the best approach for this
task is to employ attributes that come both from the structure and the text of the
web pages. We also presented a new strategy for extracting and building text
attribute sets, that takes into account the different writing styles for each page
class.

Identiferoai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:13890
Date20 July 2009
CreatorsTHORAN ARAGUEZ RODRIGUES
ContributorsEDUARDO SANY LABER
PublisherMAXWELL
Source SetsPUC Rio
LanguagePortuguese
Detected LanguageEnglish
TypeTEXTO

Page generated in 0.0034 seconds