Spelling suggestions: "subject:"banca dde dados"" "subject:"banca dee dados""
151 |
Controle de concorrência em bancos de dados distribuídos heterogêniosRissino, Silvia das Dores January 2001 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação. / Made available in DSpace on 2012-10-19T11:32:02Z (GMT). No. of bitstreams: 0Bitstream added on 2014-09-26T00:14:23Z : No. of bitstreams: 1
184299.pdf: 1934393 bytes, checksum: 1beddc18b7bbf75593270cb622a8a924 (MD5) / Controle de concorrência é um dos graves problemas em banco de dados distribuídos e heterogêneos. Os mecanismos empregados para resolvê-los, baseiam-se em abordagens pessimistas e otimistas. Cada uma dessas abordagens, emprega mecanismos de wait, timestamp ordering e/ou rolback. Em função desses mecanismos, os protocolos propostos serão livres ou não de deadlocks globais. Neste trabalho, são identificados os tipos de autonomia e heterogeneidade dos bancos de dados distribuídos e como estes influenciam no projeto de mecanismos de controle de concorrência. Identifica-se, também, os principais mecanismos de controle de concorrência utilizados comercialmente, além de se fazer uma análise comparativa dos mecanismos apresentados.
|
152 |
Uma análise comparativa de métodos e algoritmos para controle de concorrência em sistemas de gerência de banco de dados distribuídoPiffer, Elyssandro January 2001 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação. / Made available in DSpace on 2012-10-19T12:16:43Z (GMT). No. of bitstreams: 0Bitstream added on 2014-09-25T20:00:05Z : No. of bitstreams: 1
184563.pdf: 2552991 bytes, checksum: 12af3a5dffee835388aa62f5f7af74e2 (MD5) / Sistemas computacionais modernos, requerem cada vez mais velocidade, integração, confiabilidade e capacidade de armazenamento. Com o surgimento da tecnologia de banco de dados distribuído, estes requisitos foram atingidos. Métodos excepcionais de controle sobre os dados distribuídos e replicados surgiram, aumentando a disponibilidade dos dados e a agilidade no gerenciamento das informações. O trabalho proposto tem como objetivo, o estudo de banco de dados distribuído com ênfase em controle de concorrência, onde é realizado um estudo sobre os diversos métodos e algoritmos existentes sobre esse controle. Em cima dos aspectos relacionados ao controle de concorrência, é realizada uma análise entre quatro ferramentas (Oracle, DB2, Ingres e MSSQL Server 2000), as quais fazem o gerenciamento de banco de dados distribuído, comparando e avaliando os métodos e algoritmos de controle de concorrência que cada ferramenta implementa. Por fim, uma tabulação, elencando os principais itens avaliados é sugerida, evidenciando qual a ferramenta que melhor realiza o controle de concorrência num ambiente distribuído.
|
153 |
Provisionamento de recursos computacionais baseado em redes de petri para bancos de dados orientados a leituraDominico, Simone January 2016 (has links)
Orientador : Prof. Eduardo Cunha de Almeida / Orientador : Dr. Jorge Augusto Meira / Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 19/04/2016 / Inclui referências : f. 53-57 / Resumo: O provisionamento de recursos é uma técnica utilizada para alocar recursos computa- cionais em ambientes de alto desempenho. Tais ambientes estão sujeitos a processar diferentes padrões de carga de trabalho (e.g., e-commerce), incluindo picos de carga durante datas especí- ficas, como por exemplo, black friday, natal e páscoa. Através do provisionamento é possível adicionar e remover recursos conforme a necessidade apresentada pelo sistema. Neste trabalho nos concentramos no provisionamento de núcleos de CPU para processamento de consultas em bancos de dados. Nós propomos um modelo de alto nível para sincronização dinâmica de múltiplos núcleos para processamento de consultas. Nosso modelo chamado de PrT-PRO é ba- seado em um provisionamento dinâmico reativo utilizando Redes de Petri Predicado/Transição, que atua por meio de regra-condição-ação no topo do monitoramento de desempenho. Através da PrT-PRO, busca-se obter um valor ótimo de múltiplos núcleos que atenda a demanda das consultas com objetivo de melhorar seu desempenho. Nosso modelo foi validado através de experimentos no popular sistema gerenciador de banco de dados (SGBD) PostgreSQL. Os re- sultados demonstram que ao encontrar o valor ótimo de múltiplos núcleos utilizando a PrT-PRO diminuímos substancialmente os misses de cache de CPU quando comparado com a execução utilizando todos os recursos disponíveis no hardware. A melhora de desempenho no processa- mento de consultas fica evidente, pois ao diminuir os misses de CPU diminui também o tempo de execução de uma determinada carga de trabalho. Assim, podemos afirmar que a PrT-PRO apresenta um melhor aproveitamento de CPU comparado com o atual modelo interno do SGBD PostgreSQL. Utilizando a PrT-PRO o SGBD PostgreSQL foi capaz de sincronizar o acesso aos múltiplos núcleos para acomodar leituras simultâneas com tipos mistos de acesso a CPU. Palavras-chave: Provisionamento de Recursos Computacionais, SGBD, Redes de Petri. / Abstract: Resource provisioning is a technique to efficiently allocate computational resources on-demand in high-performance environments. The goal is to provision resources upon every running con- dition, even if the environment is challenged by different workload patterns (e.g., e-commerce), including peak loads during specific dates, for example, black friday, and christmas. In this dissertation, we focus on resource provisioning of multi-core CPUs for query processing. Our goal is to present a multi-core harnessing model to reduce response time for query processing in relational database systems. We present a high-level model for dynamic synchronization of multi-core in query processing. Our model called PrT-PRO is based on reactive dynamic provi- sioning using Petri Nets Predicate/Transition, which operates through rule-condition-action on top of the performance monitoring. The PrT-PRO seeks an optimal number of CPU cores to quickly respond to on-line needs of query processing. We validate the PrT-PRO on top of the popular open-source DBMS PostgreSQL. The results show that the optimal number of cores given by PrT-PRO substantially reduces the cache misses of CPU when compared with results using all available resources. Moreover, we show that decreasing the cache misses of CPU, it also decreases the response time to execute a particular workload. Thus, we can affirm that the PrT-PRO features a better harnessing of CPU compared with the current internal model of PostgreSQL. Keywords: Computing Resouce provisioning, DBMS, Petri nets.
|
154 |
MDG-NoSQL : modelo de dados para bancos NoSQL baseados em grafosErven, Gustavo Cordeiro Galvão van 13 March 2015 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015. / Submitted by Raquel Viana (raquelviana@bce.unb.br) on 2015-11-03T18:43:12Z
No. of bitstreams: 1
2015_GustavoCordeiroGalvãoVanErven.pdf: 2937303 bytes, checksum: afdc1b126b59eacc4b9a3b62bc412d1b (MD5) / Approved for entry into archive by Marília Freitas(marilia@bce.unb.br) on 2015-12-20T16:23:49Z (GMT) No. of bitstreams: 1
2015_GustavoCordeiroGalvãoVanErven.pdf: 2937303 bytes, checksum: afdc1b126b59eacc4b9a3b62bc412d1b (MD5) / Made available in DSpace on 2015-12-20T16:23:49Z (GMT). No. of bitstreams: 1
2015_GustavoCordeiroGalvãoVanErven.pdf: 2937303 bytes, checksum: afdc1b126b59eacc4b9a3b62bc412d1b (MD5) / Os bancos de dados em grafo vêm se tornando populares juntamente com as demais iniciativas NoSQL. Porém, os bancos de dados em grafos não possuem uma notação padrão. Sendo assim, o presente trabalho agrupa diversas notações e propostas de modelagem em grafos, construindo um novo modelo, chamado de Modelo de Dados para Bancos NoSQL Baseados em Grafos (MDG-NoSQL), com recursos para agrupar em uma notação as características dos bancos de dados em grafos. Esse modelo foi validado utilizando a implementação de um banco de dados de vínculos societários de empresas, combinados com os relacionamentos dessas pessoas jurídicas com os processos de compras, também chamadas de licitações, junto ao Governo Federal (Banco de Vínculos Simpli_cado para Licitações e Sociedades). Esse estudo de caso foi direcionado para auxiliar na detecção de fraudes em processos licitatórios que, além de ser diretamente aplicável a vários órgãos de controle, perícia e inteligência em âmbito nacional, permite extrair fundamentos extens íveis a outros problemas com modelagens de vínculos. / Currently, Graph Databases are becoming popular along with other NoSQL initiatives. Thus, researchers and companies have been developing data models to manipulate information as graphs However, there is no standard notation involves several features and structures of the graph databases. This model introduces several notations and concepts for building a new graph data model, called Data Model for NoSQL Graph Databases (GDM-NoSQL). The GDM-NoSQL was veri_ed through a database for investigate relationships between companies and people as well as information about the procurements that these companies participated in with the Federal Government. This database was designed to facilitate the process of searching for frauds and to be used on multiple contexts, i.e. several di_erent national agencies. Finally, the designed model was implemented in both a relational and a graph database in order to validate the hypothesis that writing relationships is simpler and more e_cient in graph models than relational databases.
|
155 |
Sistema computacional para gestão de florestas plantadasAlves, Marcos Vinicius Giongo 12 June 2013 (has links)
O Sistema Computacional para Gestao de Florestas Plantadas (SIGEFLOR) e um prototipo de solução tecnologica desenvolvida para gerenciar um banco de dados relacional de informaçoes oriundas de empresas que manejam povoamentos florestais plantados, integrando seu conteudo com a ferramenta de geotecnologia MapObjects®. 0 sistema desenvolvido e composto por modulos que permitem a operação de um banco de dados de gestao administrativa, fundiaria, florestal e a elaboração de mapas que mostram de forma espacializada as informações nele armazenadas. Foi utilizado um modelo de banco de dados relacional, dividido em duas categorias de dados, os espaciais e os alfanumericos. A base de dados utilizada foi de uma empresa florestal empirica, sendo os dados espaciais gerados pela utilização do aplicativo ArcMap®. Os dados alfanumericos foram divididos em dois grupos, um que contem dados administrativos e outro de dados pertinentes as operações florestais. Ambas as categorias de dados foram armazenados em arquivos do aplicativo Microsoft Access®. O prototipo desenvolvido integra as informações espaciais e alfanumericas a partir de uma mesma base, realizando os relacionamentos entre as diversas entidades (tabelas) que compoe essa base, possibilitando a visualização dos resultados de forma espacial georrefenciada por meio de mapas. O sistema apresenta interfaces amigaveis, com utilização do tipo mono usuario e nao necessitando de treinamento especifico para sua utilização. Para a implementação do sistema e suas relações, foi considerada como unidade basica de gestão o talhao. O uso da ferramenta MapObjects® mostrou-se eficiente, permitindo que o objetivo de apresentar os resultados de forma espacializada fosse alcançado. A utilização do prototipo desenvolvido demonstrou o grande potencial que ele apresenta como ferramenta de auxilio nos processos de gestao de empresas florestais
|
156 |
Utilizando técnicas de programaçao lógica indutiva para mineraçao de banco de dados relacionalDuarte, Denio January 2001 (has links)
Resumo: As empresas estão sendo sobrecarregadas rapidamente com grandes volumes de dados e ao mesmo tempo estão se tornando, predominantemente, orientadas ao conhecimento. O aumento do domínio do conhecimento não melhora apenas os produtos, mas também é uma fonte para decisões estratégicas. Do ponto de vista da ciência da computação, os requisitos de conhecimento exigidos pelas empresas sempre dão mais ênfase a "conhecer que" (conhecimento declarativo) do que "conhecer como" (conhecimento procedural). A lógica matemática tem sido a representação preferida para o conhecimento declarativo e portanto, técnicas de descoberta do conhecimento são utilizadas, as quais geram fórmulas lógicas a partir dos dados. Programas lógicos oferecem uma representação poderosa e flexível para restrições, gramáticas, equações e relacionamentos temporais e espaciais. A técnica que induz conceitos a partir de dados gerando programas lógicos é chamada de Programação Lógica Indutiva (ILP - Inductive Logic Programming). Este trabalho descreve a implementação de um sistema para a descoberta do conhecimento (mineração de dados) em bancos de dados relacionais utilizando fundamentos de ILP e SQL. Esse sistema, DBILP (DataBase miner based on ILP), trabalha com dois mecanismos básicos: um que, baseado em ILP, especializa e, em seguida, generaliza as regras construídas, e outro que instância e valida essas regras, baseado em comandos SQL. ILP e SQL foram escolhidos pois o primeiro é uma técnica relativamente moderna e expressiva para a mineração de dados, e o segundo permite que grande volume de dados sejam manipulados, graças ao controle feito por um Sistema Gerenciador de Banco de Dados (SGBD). O funcionamento do DBILP é discutido ao longo desse trabalho, apresentando os módulos que o compõe, a sintaxe da linguagem de entrada definida, e a forma que as regras são construídas dentro do espaço de busca. A eficiência do DBILP é apresentada através de um experimento utilizando três outros sistemas bem conceituados no meio acadêmico, dois orientados a atributo-valor: C4.5 e CN2; e um sistema ILP: Progol. A análise desse experimento indica que o DBILP é particularmente útil no processo de descoberta do conhecimento em banco de dados (KDD - Knowledge Discovery in Databases).
|
157 |
RSAPP, um algoritmo baseado em rough sets para auxílio ao processo de descoberta de conhecimento em banco de dadosSilveira, Juliano Gomes da January 2013 (has links)
Made available in DSpace on 2013-11-12T11:38:27Z (GMT). No. of bitstreams: 1
000451416-Texto+Completo-0.pdf: 14725586 bytes, checksum: 00990626e7c5d4d2d585832062bda2f3 (MD5)
Previous issue date: 2013 / Techniques of Business Intelligence (BI) became one of the main allies of organizations in tasks of transforming data into knowledge, supporting the middle and upper management levels in decision making. BI tools in their composition are based on techniques of knowledge management, such as Data Warehouse (DW), OLAP (Online Analytical Processing), Data Mining (DM), among others. In this context, it is observed that in many case, DM projects become unfeasible by some factors, such as project costs, duration and specially the uncertainty in obtaining results that return the investment spent on the project. This work seeks to minimize these factors through a diagnosis on data, by an algorithm based on Rough Sets Theory. The algorithm, named Rough Set App (RSAPP) aims to create a diagnosis on data persisted in DW, in order to map which attributes have the greatest potential for generating more accurate mining models and more interesting results. Thus, it is expected that the diagnosis generated by RSAPP can complement the KDD (Knowledge Discovery in Database) process, reducing the time spent on activities of understanding and reducing data dimensionality. This work presents a detailed description about the implemented algorithm, as well as the report of the executed tests. At the end there is an empirical analysis of the results, in order to estimate the effectiveness of the proposed algorithm. / As técnicas, business intelligence (BI) firmaram-se como grandes aliadas das organizações nas tarefas de transformar dados em conhecimento, apoiando a média e alta gestão na tomada de decisões. As ferramentas de BI em sua, composição são fundadas em técnicas de gestão do conhecimento, tais como Data Warehouse (DW), OLAP (Online Analytical Processing), minaração de dados (MD), entre outras. Neste contexto, observa-se que em muitos casos, projatos de MD acabam sendo inviabilizados por alguns fatores, tais como, custo do projeto, duração e principalmente, a incerteza na obtenção de resultados que retornem o investimento despedindo no projeto. O presente trabalho busca minimizar os fatores acima por meio um diagnóstico sobre dados, através de um algoritmo baseado em Rough Sets Theory (Teoria dos Conjuntos Aproximados (TCA)). O algoritmo desenvolvido, nomeado Rough Set App (RSAPP) objetiva criar um diagnóstico sobre os dados persistidos no DW, a fim de mapear quais atributos possuem maior potencial de gerar modelos de mineração mais preciosos e resultados mais interessantes. Desta forma, entende-se que o diagnóstico gerado por RSAPP pode complementar o processo de KDD (Knowledge Discovery in database), reduzindo o tempo gasto nas atividades de entendimento e redução da dimensionalidade dos dados. No trabalho se faz uma descrição detalhada acerca do algoritmo implementado, bem como o relato dos, testes que foram executados. Ao final faz-se uma análise empírica sobre os resultados a fim de estimar a eficácia do algoritmo quanto a sua proposta.
|
158 |
Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dadosJardini, Toni [UNESP] 30 November 2012 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:29:41Z (GMT). No. of bitstreams: 0
Previous issue date: 2012-11-30Bitstream added on 2014-06-13T19:39:00Z : No. of bitstreams: 1
jardini_t_me_sjrp.pdf: 3132731 bytes, checksum: f7d17c296de5c8631819f117979b411d (MD5) / Um dos grandes desa os e di culdades para se obter conhecimento de fontes de dados e garantir consistência e a não duplicidade das informações armazenadas. Diversas técnicas e algoritmos têm sido propostos para minimizar o custoso trabalho de permitir que os dados sejam analisados e corrigidos. Porém, ainda há outras vertentes essenciais para se obter sucesso no processo de limpeza de dados, e envolvem diversas areas tecnológicas: desempenho computacional, semântica e autonomia do processo. Diante desse cenário, foi desenvolvido um ambiente data cleaningque contempla uma coleção de ferramentas de suporte a análise e transformação de dados de forma automática, extensível, com suporte semântico e aprendizado, independente de idioma. O objetivo deste trabalho e propor um ambiente cujas contribuições cobrem problemas ainda pouco explorados pela comunidade científica area de limpeza de dados como semântica e autonomia na execução da limpeza e possui, dentre seus objetivos, diminuir a interação do usuário no processo de análise e correção de inconsistências e duplicidades. Dentre as contribuições do ambiente desenvolvido, a eficácia se mostras significativa, cobrindo aproximadamente 90% do total de inconsistências presentes na base de dados, com percentual de casos de falsos-positivos 0% sem necessidade da interação do usuário / One of the great challenges and di culties to obtain knowledge from data sources is to ensure consistency and non-duplication of stored data. Many techniques and algorithms have been proposed to minimize the hard work to allow data to be analyzed and corrected. However, there are still other essential aspects for the data cleaning process success which involve many technological areas: performance, semantic and process autonomy. Against this backdrop, an data cleaning environment has been developed which includes a collec-tion of tools for automatic data analysis and processing, extensible, with multi-language semantic and learning support. The objective of this work is to propose an environment whose contributions cover problems yet explored by data cleaning scienti c community as semantic and autonomy in data cleaning process and it has, among its objectives, to re-duce user interaction in the process of analyzing and correcting data inconsistencies and duplications. Among the contributions of the developed environment, e ciency is signi -cant exhibitions, covering approximately 90% of database inconsistencies, with the 0% of false positives cases without the user interaction need
|
159 |
Base de dados online na disseminação sobre lazer de idososTeodoro, Ana Paula Evaristo Guizarde [UNESP] 09 December 2011 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:29:48Z (GMT). No. of bitstreams: 0
Previous issue date: 2011-12-09Bitstream added on 2014-06-13T19:18:24Z : No. of bitstreams: 1
teodoro_apeg_me_rcla.pdf: 823160 bytes, checksum: 58fafecad20877b9dc991ace12555626 (MD5) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / O processo evolutivo da internet tem ampliado a adesão humana ao ambiente virtual, o que levou a comunidade científica a investir esforços para compreender melhor os aspectos inerentes à qualidade dessa interação. No âmbito das pesquisas envolvendo a temática do lazer virtual, bem pouco se tem debruçado atenção sobre a qualidade das informações específicas veiculadas, principalmente, em relação ao público idoso, instigando a atenção deste estudo. Este estudo, de natureza qualitativa, teve como objetivo a produção de uma base de dados, por intermédio de links contendo informações a respeito dos conteúdos culturais do lazer, neste caso, para a população idosa, além da elaboração e aplicação do Inventário de Avaliação de Usabilidade de Sites sobre Lazer (IAUSLA-21+). Esse instrumento foi dividido em duas partes, sendo a primeira referente à caracterização da amostra e a segunda composta por uma escala do tipo Likert, graduada em 5 pontos. O instrumento foi aplicado após vivências inclusivas no site, com uma amostra intencional de 60 sujeitos, de ambos os sexos, acima de 60 anos, familiarizados com o uso de computador e que se dispuseram a participar do estudo, pertencentes a programas de inclusão digital da cidade de Rio Claro-SP e São Paulo-SP. Os dados provenientes da aplicação dos instrumentos foram analisados de forma descritiva, por meio da utilização da Técnica de Análise de Conteúdo Temática e ilustrados numericamente, de modo percentual. Em relação ao layout, informação e operacionalização, os resultados reiteram que a base de dados construída atendeu aos objetivos do estudo, indicando boa usabilidade, porém, atualizações deverão ser realizadas sempre que necessário. Sugere-se que novas possibilidades referentes ao campo do lazer virtual sejam oferecidas aos idosos, no sentido de ampliar as perspectivas de vivências frente às novas tecnologias / The evolutionary process of the Internet has expanded the membership to human virtual environment, which led the scientific community to make efforts to better understand the intrinsic qualities of this interaction. In the context of research involving the theme of virtual entertainment, little attention has been addressing the quality of information on specific vehicles, particularly in relation to senior public, arousing the attention of this study. Therefore, this qualitative study aimed to produce a database, through links to information about the cultural content of leisure in this case for the elderly, and the development and implementation of the Usability Evaluation of Recreation Sites Inventory (IAUSLA-21 +). The instrument was divided into two parts, the first referring to the characterization of the sample, and the second consisting of a Likert type scale, graduated in 5 points. The instrument was administered to an intentional sample of 60 subjects of both sexes over 60 years, familiar with computer use and that were willing to participate in the study, belonging to the Digital Inclusion Programs, at Rio Claro-SP and Sao Paulo-SP cities. Data from the application of the instruments were descriptively analyzed through the use of Thematic Content Analysis Technique and numerically illustrated by percentage. The results indicated that the built database met the objectives of the study, indicating good usability, but updates should be held whenever necessary. Therefore, it is suggested that new possibilities could be offered to the elderly, including those relating to leisure field, to broaden the perspectives of experiences facing the new technologies
|
160 |
ORION : uma abordagem eficaz e robusta para aquisição de valores de atributos de entidades do mundo real / ORION: an effective and robust approach for acquiring attribute values of real-world entitiesManica, Edimar January 2017 (has links)
Página-entidade é uma página Web que publica dados que descrevem uma entidade de um tipo particular. Adquirir os valores dos atributos de entidades do mundo real publicados nessas páginas é uma tarefa estratégia para diversas empresas. Essa aquisição envolve as tarefas de encontrar as páginas-entidade nos sites e extrair os valores dos atributos publicados nessas páginas. Os trabalhos que discorrem sobre como realizar as tarefas de descoberta das páginasentidade e de extração dos dados de forma integrada possuem aplicação limitada porque são específicos para um domínio de aplicação ou porque requerem anotações a priori. Tendo em vista essa lacuna, esta Tese apresenta Orion, uma abordagem para aquisição de valores de atributos de entidades do mundo real a partir de páginas-entidade baseadas em template. Orion descobre as páginas-entidade nos sites e extrai os valores dos atributos publicados nessas páginas. A principal originalidade da abordagem Orion é realizar as tarefas de descoberta das páginas-entidade e de extração dos dados de forma integrada, independentemente de domínio de aplicação e de anotação a priori. A abordagem Orion inclui uma etapa de descoberta de páginas-entidade que combina características de HTML e URL sem a necessidade de intervenção do usuário para definição dos limiares de similaridade entre as páginas. A etapa de descoberta utiliza uma nova função de similaridade entre páginas baseada na URL que atribui diferentes pesos para os termos de URL de acordo com a capacidade de distinção de páginas-entidade das demais páginas. A abordagem Orion também inclui uma etapa de extração de valores de atributos a partir de consultas Cypher em um banco de dados orientado a grafos. Essa etapa infere as consultas automaticamente. A abordagem Orion é robusta porque inclui uma etapa adicional de reforço que realiza o tratamento de atributos com variação de template. Esse reforço é realizado por meio de uma combinação linear de diferentes funções de similaridade. A fim de avaliar a eficácia de cada etapa da abordagem isoladamente e da abordagem de forma integral, foram realizados experimentos exaustivos utilizando sites reais. Nesses experimentos, a abordagem Orion foi numérica e estatisticamente mais eficaz que os baselines. / Entity-page is a Web page which publishes data that describe an entity of a specific type. Acquiring the attribute values of the real-world entities that are published in these pages is a strategic task for various companies. This acquisition involves the tasks of discovering the entitypages in the websites and extracting the attribute values that are published in them. However, the current approaches that carry out the tasks of discovering entity-pages and extracting data in an integrated way have limited applications because they are restricted to a particular application domain or require an a priori annotation. This thesis presents Orion, which is an approach to acquire the attribute values of real-world entities from template-based entity-pages. Orion discovers the entity-pages in the websites and extracts the attribute values that are published in them. What is original about the Orion approach is that it carries out the tasks of discovering entity-pages and extracting data in a way that is integrated, domain-independent, and independent of any a priori annotation. The Orion approach includes an entity-page discovery stage that combines the HTML and URL features without requiring the user to define the similarity threshold between the pages. The discovery stage employs a new URL-based similarity function that assigns different weights to the URL terms in accordance with their capacity to distinguish entity-pages from other pages. Orion also includes a stage during which the attribute values are extracted by means of Cypher queries in a graph database. This stage automatically induces the queries. It should be noted that the Orion approach is robust because it includes an additional reinforcement stage for handling attributes with template variations. This stage involves exploring a linear combination of different similarity functions. We carried out exhaustive experiments through real-world websites with the aim of evaluating the effectiveness of each stage of the approach both in isolation and in an integrated manner. It was found that the Orion approach was numerically and statistically more effective than the baselines.
|
Page generated in 0.0704 seconds