Orientador: Ivan Rizzo Guilherme / Coorientador: Daniel C. G. Pedronette / Banca: Fabrício Aparecido Breve / Banca: Jurandy Gomes de Almeida Junior / A extração de dados em páginas Web é um imp ortante problema que começou a ganhar força a partir da metade da década de 90. Um dos sub domínios dessa categoria de extração de dados p ossui como fo co os pro dutos em páginas de vendas online, dada a riqueza de informações disponibilizadas pelas lojas de e-commerce, ou comércio eletrônico, em seus portais de vendas. A extração dos dados dos produtos contidos nessas páginas, como nomes e preços, permite a criação de uma grande variedade de outras ferramentas que façam uso de tais dados com o objetivo de fornecer uma interpretação semântica a eles, como comparações entre preços praticados por diferentes lojas ou análises de hábitos de consumo. Diversas abordagens têm sido empregadas para se chegar à correta extração dos dados de interesse das páginas, fazendo uso de uma gama variada de técnicas para alcançarem seus objetivos, sendo que a técnica de Tree Matching apresenta grande destaque devido aos bons resultados. Este trabalho teve como objetivo implementar e avaliar o uso da técnica de Tree Matching para a extração de dados de produtos, especificamente o nome do produto, seu preço e, porventura, o preço promocional, em páginas de comércio eletrônico, a fim de determinar sua aplicabilidade a um sistema comercial. Foram propostas melhorias ao processo de extração com a finalidade de reduzir o tempo de resposta e aumentar a acurácia do algoritmo Generalized Simple Tree Matching. Resultados experimentais demonstraram uma precisão na extração dos dados de produtos na ordem de 93.6% sobre as páginas contidas na base Ecommerce DB e um ganho médio no tempo de resposta na ordem de 36% quando as páginas são reduzidas pelos métodos propostos neste trabalho / Web data extraction is an imp ortant issue which started b ecoming a strong line of study in the mid 90s. A sub domain of that category of study is the pro duct data extraction from online sales pages, given the wealth of information provided by stores through their websites. Data extraction of pro ducts contained in these kind of pages, like pro duct name and prices, enables the creation of a wide variety of other to ols that are able to use such data in order to provide a semantic interpretation to them, such as prices comparison among different stores and consumption habits analysis. Several approaches have b een applied to reach the target data extraction from Web pages. These approaches, in turn, use a wide range of techniques to reach their goals, and Tree Matching technique has great prominence due to its go o d results. This dissertation aimed to implement and evaluate the Tree Matching technique for the extraction of pro duct data, sp ecifically the pro duct name, its price and, p erhaps, the promotional price, on e-commerce pages, in order to determine its applicability to a commercial system. Improvements have b een prop osed to the extraction pro cess in order to reduce the resp onse time and increase the accuracy of the Generalized Simple Tree Matching algorithm. Experimental results demonstrated that the extraction process got an accuracy of about 93.6% on pages contained in Ecommerce Database and an average gain in response time of about 36% when the pages were reduced by the methods proposed in this study / Mestre
Identifer | oai:union.ndltd.org:UNESP/oai:www.athena.biblioteca.unesp.br:UEP01-000845512 |
Date | January 2015 |
Creators | Godoy, Lucas Antonio Toledo. |
Contributors | Universidade Estadual Paulista "Júlio de Mesquita Filho" Instituto de Biociências, Letras e Ciências Exatas. |
Publisher | São José do Rio Preto, |
Source Sets | Universidade Estadual Paulista |
Language | Portuguese, Portuguese, Texto em português; resumos em português e inglês |
Detected Language | Portuguese |
Type | text |
Format | 103 f. : |
Relation | Sistema requerido: Adobe Acrobat Reader |
Page generated in 0.002 seconds