Return to search

Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths

Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014 / Made available in DSpace on 2015-02-05T20:44:43Z (GMT). No. of bitstreams: 1
329914.pdf: 1331548 bytes, checksum: 83651130b0ac80ced63647347769e15a (MD5)
Previous issue date: 2014 / Segmentação e remoção de ruído de páginas web são etapas essenciais no processo de extração de dados estruturados. Identificar a região principal da página, eliminando o que não é importante (menus, anúncios,etc.), pode melhorar significativamente o desempenho do processo de extração. Para essa tarefa e proposto um novo algoritmo, totalmente automático, que utiliza uma sequência de tag paths (TPS) como representação da página web. A TPS é composta por uma sequência de símbolos (string), cada um representando um tag path diferente. O algoritmo proposto procura por posições na TPS onde é possível dividi-la em duas regiões de tal forma que seus alfabetos não se intersectem, o que significa que as regiões têm conjuntos de tag paths completamente distintos e, portanto, são regiões diferentes da página. Os resultados mostram que o algoritmo é muito efetivo em identificar o conteúdo principal de vários sites, e melhora a precisão da extração, removendo resultados irrelevantes.<br> / Abstract: Web page segmentation and data cleaning are essential steps in structured web data extraction. Identifying a web page main content region, removing what is not important (menus, ads, etc.), can greatly improve the performance of the extraction process. We propose, for this task, a novel and fully automatic algorithm that uses a tag path sequence (TPS) representation of the web page. The TPS consists of a sequence of symbols (string), each one representing a diferent tag path. The proposed technique searches for positions in the TPS where it is possible to split it in two regions where each region's alphabet do not intersect, which means that they have completely dierent sets of tag paths and, thus, are diferent regions. The results show that the algorithm is very effective in identifying the main content block of several major web sites, and improves the precision of the extraction step by removing irrelevant results.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufsc.br:123456789/129142
Date January 2014
CreatorsVelloso, Roberto Panerai
ContributorsUniversidade Federal de Santa Catarina, Dorneles, Carina Friedrich
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Format65 p.| il., grafs.
Sourcereponame:Repositório Institucional da UFSC, instname:Universidade Federal de Santa Catarina, instacron:UFSC
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0026 seconds