Return to search

Extração não supervisionada de dados da web utilizando abordagem independente de formato

Submitted by Lenieze Lira (leniezeblira@gmail.com) on 2016-07-25T13:47:02Z
No. of bitstreams: 1
Dissertação - André Luiz Lopes Porto.pdf: 14791950 bytes, checksum: be2de076023a64a02a6a43c99e9977d8 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2016-07-28T13:48:47Z (GMT) No. of bitstreams: 1
Dissertação - André Luiz Lopes Porto.pdf: 14791950 bytes, checksum: be2de076023a64a02a6a43c99e9977d8 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2016-07-28T13:50:19Z (GMT) No. of bitstreams: 1
Dissertação - André Luiz Lopes Porto.pdf: 14791950 bytes, checksum: be2de076023a64a02a6a43c99e9977d8 (MD5) / Made available in DSpace on 2016-07-28T13:50:19Z (GMT). No. of bitstreams: 1
Dissertação - André Luiz Lopes Porto.pdf: 14791950 bytes, checksum: be2de076023a64a02a6a43c99e9977d8 (MD5)
Previous issue date: 2015-11-17 / In this thesis we propose a new method for extraction data in rich Web pages that
uses only the textual content of these pages. Our method, called FIEX (Format
Independent Web Data Extraction), is based on information extraction techniques
for text segmentation, and can extract data from Web pages where methods of state
of the art based on data alignment techniques fail due to inconsistency between the
logical structure of Web pages and the conceptual structure of the data represented
in them. The FIEX, unlike the methods previously proposed in the literature, is able
to extract data using only the textual content of a Web pages in challenging scenarios
such as severe cases of textual elements compounds, in which various values of interest
for extraction are represented by only one HTML element. To perform the extraction
data of the web pages, FIEX is based on techniques of elimination noise by information
redundancy and an information extraction method for text segmentation known
in the literature as ONDUX (On-Demand Unsupervised Learning for Information Extraction).
In our experiments, we used various Web pages collections of di erent areas
of products and e-commerce stores with goal to extract data from product descriptions.
The choose of this type of Web page, due to the large amount of data these pages
are contained in severe cases of textual elements compounds. According to the results
obtained in our experiments in various areas of products and e-commerce stores, we
validate the hypothesis that the extraction based on only textual features is possible
and e ective. / Nessa dissertação de mestrado propomos um novo método para extração em páginas
Web ricas em dados que utiliza apenas o conteúdo textual destas páginas. Nosso
método, chamado de FIEX (Format Independent Web Data Extraction), é baseado
em técnicas de extração de informação por segmentação de texto, e consegue extrair
dados de páginas Web nas quais métodos do estado-da-arte baseados em técnicas de
alinhamento de dados não conseguem devido à inconsistência entre a estrutura lógica
das páginas Web e a estrutura conceitual dos dados nelas representadas. O FIEX,
diferentemente dos métodos previamente propostos na literatura, é capaz de extrair
dados apenas utilizando o conteúdo textual de uma página Web em cenários desa adores
como casos severos de elementos textuais compostos, nos quais diversos valores de
interesse para extração estão representados por apenas um elemento HTML. Para realizar
a extração dos dados de páginas Web, o FIEX, é baseado em técnicas de eliminação
de ruídos por redundância de informação e um método de extração de informação por
segmentação de texto conhecido na literatura como ONDUX (On-Demand Unsupervised
Learning for Information Extraction). Em nossos experimentos, utilizamos várias
coleções de páginas Web de diferentes domínios de produtos e de lojas de comércio eletr
ônico com objetivo de extrair dados de descrições de produtos. A escolha desse tipo
de página Web, deve-se à grande quantidade de dados destas páginas estarem contidos
em casos severos de elementos textuais compostos. De acordo com os resultados obtidos
em nossos experimentos em diferentes domínios de produtos e lojas de comércio
eletrônico, validamos a hipótese de que a extração baseada em apenas características
textuais é possível e e caz.

Identiferoai:union.ndltd.org:IBICT/oai:http://localhost:tede/5113
Date17 November 2015
CreatorsPorto, André Luiz Lopes
ContributorsSilva, Altigran Soares da
PublisherUniversidade Federal do Amazonas, Programa de Pós-graduação em Informática, UFAM, Brasil, Instituto de Computação
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da UFAM, instname:Universidade Federal do Amazonas, instacron:UFAM
Rightsinfo:eu-repo/semantics/openAccess
Relation-312656415484870643, 600, 500, 1052477850274827528

Page generated in 0.003 seconds