[pt] A quantidade de informações na Internet aumenta a cada dia. Embora esta
proliferação aumente as chances de que o tema sendo buscado por um usuário
esteja presente na rede, ela também torna encontrar a informação desejada mais
difícil. A classificação automática de páginas é, portanto, uma importante
ferramenta na organização de conteúdo da Web, com aplicações específicas na
melhoria dos resultados retornados por máquinas de busca. Nesta dissertação foi
realizado um estudo comparativo de diferentes conjuntos de atributos e métodos
de classificação aplicados ao problema da classificação funcional de páginas web,
com foco em 4 classes: Blogs, Blog Posts, Portais de Notícias e Notícias. Ao
longo dos experimentos, foi possível constatar que a melhor abordagem para esta
tarefa é a utilização de atributos tanto da estrutura quanto do texto das páginas.
Foi apresentada também uma estratégia nova de construção de conjuntos de
atributos de texto, que leva em consideração os diferentes estilos de escrita das
classes de páginas. / [en] The amount of information on the Internet increases every day. Even though
this proliferation increases the chances that the subject being searched for by an
user is on the Web, it also makes finding the desired information much harder.
The automated classification of pages is, therefore, an important tool for
organizing Web content, with specific applications on the improvement of results
displayed by search engines. In this dissertation, a comparative study of different
attribute sets and classification methods for the functional classification of web
pages was made, focusing on 4 classes: Blogs, Blog Posts, News Portals and
News. Throughout the experiments, it became evident the best approach for this
task is to employ attributes that come both from the structure and the text of the
web pages. We also presented a new strategy for extracting and building text
attribute sets, that takes into account the different writing styles for each page
class.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:13890 |
Date | 20 July 2009 |
Creators | THORAN ARAGUEZ RODRIGUES |
Contributors | EDUARDO SANY LABER |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | Portuguese |
Detected Language | English |
Type | TEXTO |
Page generated in 0.0022 seconds