Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2015 / Made available in DSpace on 2016-04-15T13:16:45Z (GMT). No. of bitstreams: 1
337788.pdf: 1542322 bytes, checksum: fcadb9653b330c2c852a929a0bbbc352 (MD5)
Previous issue date: 2015 / A Web e uma grande fonte de dados. Grandes quantidades de dados são inseridos diariamente e muitos desses dados estão na forma de tabelas HTML. Alguns trabalhos têm proposto formas de extrair e integrar o conteúdo dessas tabelas para torna-los mais acessíveis para o consumo humano. Porem, essa e uma tarefa complexa e um problema ainda em aberto visto que tabelas Web n~ao possuem um padrão de representação. Alem disso, o uso de sinônimos e abreviações torna difícil a comparação dos conteúdos dessas tabelas. Assim sendo, este trabalho propõe uma nova abordagem para determinar a similaridade entre tabelas Web capaz de lidar com suas diferentes estruturas e termos sinônimos. Trabalhos relacionados não lidam, ao mesmo tempo,com essas duas problemáticas. Experimentos realizados mostram que a abordagem e promissora.<br> / Abstract : The Web is a huge information source. Large amounts of data are publisheddaily and great part of them is available as HTML tables. Someworks have proposed approaches to extract and integrate Web tables'content in order to make it more accessible for human consumption.However, this is a complex task and still an open issue given that Webtables do not have a unique representation pattern. Besides, the useof synonyms and abbreviations become hard the comparison of tables'content. Given that, we propose a new approach to determine similaritybetween Web tables which is able to deal with distinct structuresand synonym terms. Related works do not deal, at the same time,with both problematics. Experimental evaluations had shown that theapproach is promising.
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.ufsc.br:123456789/160567 |
Date | January 2015 |
Creators | Silva, Filipe Roberto |
Contributors | Universidade Federal de Santa Catarina, Mello, Ronaldo dos Santos |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | 86 p.| il., tabs., grafs. |
Source | reponame:Repositório Institucional da UFSC, instname:Universidade Federal de Santa Catarina, instacron:UFSC |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0018 seconds