Global ETD Search

Return to search

Aprendendo a segmentar páginas web

Made available in DSpace on 2015-04-11T14:02:58Z (GMT). No. of bitstreams: 1
Caio Moura Daoud.pdf: 3197574 bytes, checksum: 0c7b4dcb04bf82e38f2ef4c47bd0b3ea (MD5)
Previous issue date: 2013-03-28 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Unlike traditional documents, Web pages are composed of different segments or blocks,
each block has specific functions in each page. Recent work in the literature has shown
that information on these segments may be useful to improve the results of numerous
tasks in information retrieval and data mining areas. For this reason, there are many
scientific works proposing different methods for Web pages segmentation. Generally
speaking, the targeting methods found in the literature only use evidences of the page
to be segmented. However, based on the observation that the pages of a site tend to
have very similar layouts, we present a strategy based on machine learning that explores
overall evidences of Web sites. Our method, which adopts Support Vector Machines
for the learning process, and use the SOM structure (Site Object Model) to aggregate
information from all pages of aWeb site, achieved good results when compared a manual
segmentation approach, and with a recent approach in the literature. / Diferente dos documentos tradicionais, as páginasWeb são compostas por diferentes segmentos
ou blocos, cada qual desempenhando uma função específica dentro de cada página.
Trabalhos recentes da literatura têm demonstrado que informações sobre esses segmentos
podem ser úteis para melhorar os resultados de inúmeras tarefas das áreas de
recuperação de informação e mineração de dados. Por esse motivo, existem muitos trabalhos
científicos propondo diferentes métodos de segmentação de páginas Web. De uma
forma geral, os métodos de segmentação encontrados na literatura utilizam apenas evidências
da própria página a ser segmentada. No entanto, partindo da observação de que
as páginas de um mesmo site tendem a possuir layouts bastante similares, apresentamos
neste trabalho uma abordagem baseada em aprendizagem de máquina que explora evidências
globais dos Web sites. Nosso método, que adota Support Vector Machines para o
processo de aprendizagem, e usa a estrutura SOM (Site Object Model) para agregar informações
de todas as páginas de um mesmo Web site, apresentou bons resultados quando
comparado com uma abordagem de segmentação manual, e quando comparado com uma
recente abordagem da literatura.

Segmentação de páginas Web

Aprendizagem de máquina

Árvore SOM

Web pages segmentation

Machine learning

SOMtree

Identifer	oai:union.ndltd.org:IBICT/oai:http://localhost:tede/2924
Date	28 March 2013
Creators	Daoud, Caio Moura
Contributors	Oliveira, David Braga Fernandes de
Publisher	Universidade Federal do Amazonas, Programa de Pós-graduação em Informática, UFAM, BR, Instituto de Computação
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Format	application/pdf
Source	reponame:Biblioteca Digital de Teses e Dissertações da UFAM, instname:Universidade Federal do Amazonas, instacron:UFAM
Rights	info:eu-repo/semantics/openAccess
Relation	-312656415484870643, 600

Page generated in 0.0026 seconds

Aprendendo a segmentar páginas web

Description

Links & Downloads

Tags

Additional Fields