Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2013. / Made available in DSpace on 2014-08-06T17:39:27Z (GMT). No. of bitstreams: 1
325552.pdf: 1002622 bytes, checksum: b02bceef07ab41a843ebba484b77d1a5 (MD5)
Previous issue date: 2013 / A Web é o maior repositório de dados disponível, contando com mais de 150 milhões de tabelas com dados relacionais de qualidade. Muitos trabalhos têm unido esforços a fim de utilizá-las como base para consultas, porém, a heterogeneidade de formatações em que os dados se encontram limita a 17,75% a quantidade de tabelas aptas para este tipo de processamento. A fim de aumentar o aproveitamento das informações estruturadas na Web, esta dissertação apresenta o WT2RT (Web Table to Relational Table), uma solução para catalogação das categorias de tabelas utilizadas com maior frequência, formalização destas e definição de algoritmos para uniformização estrutural. Para a catalogação, foi implementado o framework WTClassifier, baseado em Redes Neurais Artificiais. Seu aprendizado se dá através da análise de padrões em tabelas, escolhidas aleatoriamente, cujas categorias são conhecidas. Nos experimentos realizados, o WTClassifier apresentou valores altos de F-measure para a maioria das estruturas definidas. Após a categorização, são aplicados algoritmos em cada caso heterogêneo, de modo a trazer todas as tabelas para uma estrutura única.<br> / Abstract : The Web is the largest repository of available data, with over 150 million high-quality tables. Several works have combined efforts to allow queries on these tables, however, their heterogeneous structures limit to 17.75% the amount of tables suitable for this type of processing. In order to increase the use of structured information on the Web, this work presents an approach called WT2RT (Web Table to Relational Table), that catalogsWeb table categories used more often, formalize them and defines structural uniformization algorithms. For the cataloging purpose, framework WTCLASSIFIER was implemented, using Artificial Neural Networks. It learns analyzing patterns of tables whose categories are known. In experiments, WTCLASSIFIER presented high F-measure values for most cases. After identifying table category, algorithms are applied in order to bring all tables to a single structure.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufsc.br:123456789/122994
Date January 2013
CreatorsLautert, Larissa Rodrigues
ContributorsUniversidade Federal de Santa Catarina, Dorneles, Carina Friedrich
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Format65 p.| il., grafs.
Sourcereponame:Repositório Institucional da UFSC, instname:Universidade Federal de Santa Catarina, instacron:UFSC
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0018 seconds