Spelling suggestions: "subject:"banco : dados"" "subject:"banco : lados""
271 |
MD-PROM : um mecanismo de deduplicação de metadados e rastreio da proveniência / MD-PROM : a mechanism for metadata deduplication and provenance tracingBorges, Eduardo Nunes January 2008 (has links)
Bibliotecas digitais são repositórios de objetos digitais que oferecem serviços aos seus usuários como pesquisa e publicação desses objetos. Cada objeto digital é descrito por um conjunto de metadados que especifica a forma como esse objeto pode ser recuperado. Sistemas de integração de bibliotecas digitais indexam objetos digitais adquiridos de fontes diferentes, os quais podem estar representados através de vários padrões de metadados. Estes metadados são heterogêneos tanto em conteúdo quanto em estrutura. Conseqüentemente, os sistemas de integração de bibliotecas digitais não estão aptos a fornecer respostas livres de informação redundante que integrem as várias fontes de dados. Quando um usuário realiza uma consulta sobre várias bibliotecas digitais, é interessante que sejam retornados metadados integrados das diversas fontes e a origem de cada informação recuperada, ou seja, a biblioteca digital que publicou aquela informação (metadado). O uso de proveniência de dados nas consultas a metadados em sistemas de integração de bibliotecas digitais, de modo a rastrear a origem das informações recuperadas, permite que usuários avaliem a qualidade das bibliotecas digitais. Este trabalho apresenta o MD-PROM (Metadata Deduplication and PROvenance tracing Mechanism), um mecanismo de deduplicação de metadados e rastreio da proveniência. Este mecanismo identifica metadados de objetos digitais duplicados em bibliotecas digitais distintas, integra os metadados duplicados e recupera informações de proveniência dos metadados integrados. A identificação de duplicatas é realizada através do casamento automático de esquemas dos metadados e da aplicação de funções de similaridade sobre os principais metadados que descrevem os objetos digitais. São propostas a função de similaridade de nomes próprios IniSim, o algoritmo de casamento de autores NameMatch e o algoritmo de casamento de objetos digitais Digital Object Match que identifica múltiplas representações dos metadados. Além dos algoritmos de similaridade, o MD-PROM especifica uma estrutura baseada em árvore para representar a proveniência de dados que identifica a origem dos metadados, bem como os valores dos quais os metadados foram derivados. Também é proposto um algoritmo de integração de metadados e rastreio da proveniência denominado MetadataProv. A principal contribuição do trabalho é melhorar a qualidade da pesquisa do usuário de bibliotecas digitais. O MD-PROMfornece uma resposta única, livre de redundância e sem perda de informação relevante para consultas a metadados de objetos digitais oriundos de bibliotecas digitais distintas. Além disso, são recuperadas informações de proveniência que permitem ao usuário verificar a veracidade e confiabilidade dos metadados retornados pelas consultas em sistemas de integração de bibliotecas digitais. São apresentados também os resultados de diversos experimentos que avaliam a qualidade da deduplicação de objetos digitais comparando a técnica proposta com outras abordagens estudadas. / Digital libraries are repositories of digital objects that provide services to their users such as search and publication of these objects. Each digital object is described by a set of metadata that specifies how this object can be retrieved. Integrated digital library systems index digital objects acquired from different sources, which can be represented through several metadata patterns. These metadata are heterogeneous both in content and in structure. Consequently, the integrated digital library systems are not able to provide answers free from redundant information that integrate the several data sources. When a user performs a query on various digital libraries, it is interesting to return integrated metadata from several sources and the origin of each information retrieved, that is, the digital library which published that information (metadata). Using data provenance in metadata queries on integrated digital library systems, so as to trace the origin of the information retrieved, allows users to analyze the quality of digital libraries. This work presents MD-PROM (Metadata Deduplication and PROvenance tracing Me- chanism), a mechanism for metadata deduplication and provenance tracing. This mechanism identifies duplicated digital objects metadata in different digital libraries, integrates duplicated metadata and retrieves provenance information of the integrated metadata. The identification of duplicates is performed through automatic metadata schema matching and through similarity functions applied over main metadata that describe the digital objects. The surname similarity function IniSim, the authors matching algorithm NameMatch and digital objects matching algorithm Digital Object Match, which identifies multiple representations of metadata, have been proposed. Besides the similarity algorithms, MD-PROM specifies a tree-based structure to represent the data provenance that identifies the origin of metadata as well as the values from which the metadata were derived. An algorithm for the integration of metadata and provenance tracing, called MetadataProv, is also proposed. The main contribution of this work is to improve the quality of the searches posed by the users of digital libraries. MD-PROM provides a single answer, free from redundancy and loss of relevant information related to queries on digital objects metadata from different digital libraries. In addition, provenance information is retrieved allowing the user to verify the accuracy and the reliability of the metadata returned by queries on integrated digital library systems. There are also reports on several experiments, which evaluate the quality of the deduplication of digital objects comparing the proposed technique with other approaches.
|
272 |
Automatizando o processo de estimativa de revocação e precisão de funções de similaridade / Automatizing the process of estimating recall and precision of similarity functionsSantos, Juliana Bonato dos January 2008 (has links)
Os mecanismos tradicionais de consulta a bases de dados, que utilizam o critério de igualdade, têm se tornado ineficazes quando os dados armazenados possuem variações tanto ortográficas quanto de formato. Nesses casos, torna-se necessário o uso de funções de similaridade ao invés dos operadores booleanos. Os mecanismos de consulta por similaridade retornam um ranking de elementos ordenados pelo seu valor de similaridade em relação ao objeto consultado. Para delimitar os elementos desse ranking que efetivamente fazem parte do resultado pode-se utilizar um limiar de similaridade. Entretanto, a definição do limiar de similaridade adequado é complexa, visto que este valor varia de acordo com a função de similaridade usada e a semântica dos dados consultados. Uma das formas de auxiliar na definição do limiar adequado é avaliar a qualidade do resultado de consultas que utilizam funções de similaridade para diferentes limiares sobre uma amostra da coleção de dados. Este trabalho apresenta um método automático de estimativa da qualidade de funções de similaridade através de medidas de revocação e precisão computadas para diferentes limiares. Os resultados obtidos a partir da aplicação desse método podem ser utilizados como metadados e, a partir dos requisitos de uma aplicação específica, auxiliar na definição do limiar mais adequado. Este processo automático utiliza métodos de agrupamento por similaridade, bem como medidas para validar os grupos formados por esses métodos, para eliminar a intervenção humana durante a estimativa de valores de revocação e precisão. / Traditional database query mechanisms, which use the equality criterion, have become inefficient when the stored data have spelling and format variations. In such cases, it's necessary to use similarity functions instead of boolean operators. Query mechanisms that use similarity functions return a ranking of elements ordered by their score in relation to the query object. To define the relevant elements that must be returned in this ranking, a threshold value can be used. However, the definition of the appropriated threshold value is complex, because it depends on the similarity function used and the semantics of the queried data. One way to help to choose an appropriate threshold is to evaluate the quality of similarity functions results using different thresholds values on a database sample. This work presents an automatic method to estimate the quality of similarity functions through recall and precision measures computed for different thresholds. The results obtained by this method can be used as metadata and, through the requirements of an specific application, assist in setting the appropriated threshold value. This process uses clustering methods and cluster validity measures to eliminate human intervention during the process of estimating recall and precision.
|
273 |
A clustering-based approach for discovering interesting places in trajectories / Uma abordagem baseada em clusterização para a descoberta de lugares de interesse em trajetóriasPalma, Andrey Luis Tietbohl January 2008 (has links)
Por causa da grande quantidade de dados de trajetórias producidos por dispositivos móveis, existe um aumento crescente das necessidades de mecanismos para extrair conhecimento a partir desses dados. A maioria dos trabalhos existentes focam nas propriedades geometricas das trajetorias, mas recentemente surgiu o conceito de trajetórias semânticas, nas quais a informação da geografia por baixo da trajetória é integrada aos pontos da trajetória. Nesse novo conceito, trajetórias são observadas como um conjunto de stops e moves, onde stops são as partes mais importantes da trajetória. Os stops e moves são computados pela intersecção das trajetórias com o conjunto de objetos geográficos dados pelo usuário. Nessa dissertação será apresentada uma solução alternativa a descoberta de stops, com a capacidade de achar lugares de interesse que não são esperados pelo usuário. A solução proposta é um método de clusterização espaço-temporal, baseado na velocidade, para ser aplicado em uma trajetória. Foram comparadas duas abordagens diferentes com experimentos baseados em dados reais e mostrado que a computação de stops usando o conceito de velocidade pode ser interessante para várias applicações. / Because of the large amount of trajectory data produced by mobile devices, there is an increasing need for mechanisms to extract knowledge from this data. Most existing works have focused on the geometric properties of trajectories, but recently emerged the concepts of semantic trajectories, in which the background geographic information is integrated to trajectory sample points. In this new concept, trajectories are observed as a set of stops and moves, where stops are the most important parts of the trajectory. Stops and moves have been computed by testing the intersection of trajectories with a set of geographic objects given by the user. In this dissertation we present an alternative solution with the capability of finding interesting places that are not expected by the user. The proposed solution is a spatio-temporal clustering method, based on speed, to work with single trajectories. We compare the two different approaches with experiments on real data and show that the computation of stops using the concept of speed can be interesting for several applications.
|
274 |
MD-JPA : um perfil UML para modelagem do mapeamento objeto-relacional com JPA em uma abordagem dirigida por modelos / MD-JPA:a UML profile for object relational mapping with JPA in a model driven approachTorres, Alexandre January 2009 (has links)
A abordagem de desenvolvimento dirigido por modelos (DDM) propõe que modelos (e transformações entre modelos) assumam o papel principal no desenvolvimento de sistemas. Entretanto, não há uma notação consensual para modelagem de persistência baseada em arcabouços de mapeamento objeto-relacional: enquanto a UML não possui recursos específicos para a modelagem de persistência, o modelo entidade-relacionamento não expressa os conceitos dinâmicos existentes na UML. Este trabalho propõe o perfil UML MD-JPA (Model Driven JPA) para a modelagem de persistência baseada na já difundida API de persistência Java (JPA), buscando a modelagem dos elementos persistentes e transientes de forma mais coerente e integrada. São especificadas as principais características do perfil MD-JPA, assim como a maneira pela qual modelos que adotam este perfil podem ser transformados em implementação Java, através de transformações de modelos propostas em uma abordagem DDM. Por fim, uma ferramenta de código livre foi desenvolvida para disponibilizar para comunidade os resultados deste trabalho. / The model driven development (MDD) approach proposes that models (and modelto- model transformations) play the main role on system development. However, there is not a consensual notation to model persistence based upon object relational mapping frameworks: while UML lacks specific resources for persistence modeling, the entityrelationship model does not make reference to the dynamic concepts existing in UML. This work proposes MD-JPA, a UML profile for persistence modeling based on the well-known Java Persistence API (JPA), pursuing the modeling of transient and persistent elements in a more coherent and integrated way. This work describes the main characteristics of MD-JPA as well as the way that models that adopt such profile can them be used to generate a Java implementation by the application of the proposed model transformations on a MDD approach. Finally, an open source tool was developed to make the results of this work available to the community.
|
275 |
Um estudo para implementacao do modelo tf-orm / A study for tf-orm implementationArruda, Eduardo Henrique Pereira de January 1996 (has links)
A utilização de modelos orientados a objetos na especificação de sistemas de informação promove mudanças radicais na maneira como estes são analisados, projetados e implementados. No entanto, certos aspectos relacionados evolução dinâmica do comportamento e dos valores das propriedades dos objetos não são plenamente satisfeitos através destes modelos. TF-ORM introduz novos conceitos, estendendo o modelo de orientação a objetos a fim de suportá-los. Advindo do modelo de objetos com papeis (ORM), TF-ORM divide o comportamento dos objetos nos diversos papeis que estes podem desempenhar. São introduzidos conceitos para modelagem dos aspectos tempo-dependentes das aplicações, incluindo utilização de marcas de tempo associadas aos objetos e instancias de papeis, e aos valores das propriedades com variação dinâmica, bem como a definidas de domínios temporais e uma linguagem de lógica temporal. TF-ORM permite a definição de restrições sobre o comportamento dinâmico das instâncias, através de regras de transição de estado, e sobre os valores das propriedades, através de regras de restrição de integridade. Uma abordagem de implementação TF-ORM deve levar em consideração o conjunto destes aspectos, em especial: (i) suporte ao conceito de papeis, permitindo a criação de instâncias multiples e paralelas; (ii) suporte aos conceitos tempo-dependentes, incluindo a definição de timestamps e domínios de dados temporais; e (iii) suporte ao mecanismo de regras de transição de estado e regras de integridade. Este trabalho apresenta um estudo para implementação do modelo TFORM sobre o sistema de gerencia de banco de dados orientado a objetos 02, o qual suporta plenamente os conceitos do modelo de orientação a objetos e os conceitos básicos de bancos de dados de segunda geração. Dentro deste estudo são analisadas as possibilidades de mapeamento do modelo de objetos com papeis para o modelo tradicional de orientação a objetos. Da mesma forma, requisitos para implementação de aspectos temporais são analisados. O modelo de regras TF-ORM. baseado no estudo de diversos modelos de implementação, e mapeado para um modelo de regras E-C-A (evento-condicaoacao), as quais permitem a transformação do 02 em um sistema de bancos de dados ativo, capaz de responder a estímulos não diretamente ligados a requisições de usuários. A abordagem de implementação apresentada permite a especificação de grande parte da funcionalidade do modelo TF-ORM. A fim de certificar sua correção, e proposta uma ferramenta de tradução e desenvolvido um estudo de caso utilizando notação gráfica para especificação de requisitos TF-ORM. / The information systems' requirements specification model TF-ORM extends the object-oriented model, splitting the object behavior in different roles that it can perform. In addition, introduces the support to dynamic properties, temporal domains, state transition rules, and constraints. This work presents a TF-ORM implementation approach to the object-oriented database management system 02. The use of object-oriented models in information systems" specification radically changes the manner in which this systems are analyzed. designed, and implemented. However, some aspects related to dynamic behavior and property value evolution are not fully satisfied through these models. TF-ORM introduces a set of new concepts, extending object-oriented model to support these aspects. Originated in the object with roles model (ORM), TF-ORM divides the objects behavior in the different roles that it can perform. Are introduced concepts to model time-dependent aspects, including timestamps associated to objects and roles instances. and to values of dynamic properties. as well as the temporal domain specification and a temporal logic language are supported. TF-ORM allows the definition of constraints over the dynamic behavior of the instances, through state transition rules, and over the property values, through integrity constraints. A TF-ORM implementation approach must consider all of these aspects, specially: (i) support to roles concept, allowing the creation of multiple and parallel instances; (ii) support to time-dependents concepts, including timestamps definition and temporal data domains; and (iii) support to state transition rules and integrity constraints. This work presents a study to implement the TF-ORM model over 02, an object-oriented database management system that supports entirely object-oriented and databases' second generation requirements. This study analyses the possibilities to mapping roles to traditional object-oriented model, and temporal aspects implementation requirements. The TF-ORM rules model, based on the study of many implementation models, is mapped to a E-C-A (event-condition-action) rules model. E-C-A rules allow transforming 02 in an active database, able to answer impulses not directly generated by users' requirements. The implementation approach presented allows the specification of multiples aspects of the TF-ORM functionality. To certificate its correctness, is proposed a translate tool, and developed a study of case, using a graphical notation to TF-ORM requirements specification.
|
276 |
Aplicando algoritmos de mineração de regras de associação para recuperação de informações multilíngues. / Cross-language information retrieval using algorithms for mining association rulesGeraldo, André Pinto January 2009 (has links)
Este trabalho propõe a utilização de algoritmos de mineração de regras de associação para a Recuperação de Informações Multilíngues. Esses algoritmos têm sido amplamente utilizados para analisar transações de registro de vendas. A ideia é mapear o problema de encontrar associações entre itens vendidos para o problema de encontrar termos equivalentes entre idiomas diferentes em um corpus paralelo. A proposta foi validada por meio de experimentos com diferentes idiomas, conjuntos de consultas e corpora. Os resultados mostram que a eficácia da abordagem proposta é comparável ao estado da arte, ao resultado monolíngue e à tradução automática de consultas, embora este utilize técnicas mais complexas de processamento de linguagem natural. Foi criado um protótipo que faz consultas à Web utilizando o método proposto. O sistema recebe palavras-chave em português, as traduz para o inglês e submete a consulta a diversos sites de busca. / This work proposes the use of algorithms for mining association rules as an approach for Cross-Language Information Retrieval. These algorithms have been widely used to analyze market basket data. The idea is to map the problem of finding associations between sales items to the problem of finding term translations over a parallel corpus. The proposal was validated by means of experiments using different languages, queries and corpora. The results show that the performance of our proposed approach is comparable to the performance of the monolingual baseline and to query translation via machine translation, even though these systems employ more complex Natural Language Processing techniques. A prototype for cross-language web querying was implemented to test the proposed method. The system accepts keywords in Portuguese, translates them into English and submits the query to several web-sites that provide search functionalities.
|
277 |
Desambiguação de autores em bibliotecas digitais utilizando redes sociais e programação genética / Author name disambiguation in digital libraries using social networks and genetic programmingLevin, Felipe Hoppe January 2010 (has links)
Bibliotecas digitais tornaram-se uma importante fonte de informação para comunidades científicas. Entretanto, por coletar dados de diferentes fontes, surge o problema de informações ambíguas ou duplicadas de nomes de autores. Métodos tradicionais de desambiguação de nomes utilizam informação sintática de atributos. Todavia, recentemente o uso de redes de relacionamentos, que traz informação semântica, tem sido estudado em desambiguação de dados. Em desambiguação de nomes de autores, relações de co-autoria podem ser usadas para criar uma rede social, que pode ser utilizada para melhorar métodos de desambiguação de nomes de autores. Esta dissertação apresenta um estudo do impacto de adicionar análise de redes sociais a métodos de desambiguação de nomes de autores baseados em informação sintática de atributos. Nós apresentamos uma abordagem de aprendizagem de máquina baseada em Programação Genética e a utilizamos para avaliar o impacto de adicionar análise de redes sociais a desambiguação de nomes de autores. Através de experimentos usando subconjuntos de bibliotecas digitais reais, nós demonstramos que o uso de análise de redes sociais melhora de forma significativa a qualidade dos resultados. Adicionalmente, nós demonstramos que as funções de casamento criadas por nossa abordagem baseada em Programação Genética são capazes de competir com métodos do estado da arte. / Digital libraries have become an important source of information for scientific communities. However, by gathering data from different sources, the problem of duplicate and ambiguous information about author names arises. Traditional methods of name disambiguation use syntactic attribute information. However, recently the use of relationship networks, which provides semantic information, has been studied in data disambiguation. In author name disambiguation, the co-authorship relations can be used to create a social network, which can be used to improve author name disambiguation methods. This dissertation presents a study of the impact of adding social network analysis to author name disambiguation methods based on syntactic attribute information. We present a machine learning approach based on Genetic Programming and use it to evaluate the impact of social network analysis in author name disambiguation. Through experiments using subsets of real digital libraries, we show that the use of social network analysis significantly improves the quality of results. Also, we demonstrate that match functions created by our Genetic Programming approach are able to compete with state-of-the-art methods.
|
278 |
Cross-language plagiarism detection / Detecção de plágio multilínguePereira, Rafael Corezola January 2010 (has links)
Plágio é um dos delitos mais graves no meio acadêmico. É definido como “o uso do trabalho de uma pessoa sem a devida referência ao trabalho original”. Em contrapartida a esse problema, existem diversos métodos que tentam detectar automaticamente plágio entre documentos. Nesse contexto, esse trabalho propõe um novo método para Análise de Plágio Multilíngue. O objetivo do método é detectar casos de plágio em documentos suspeitos baseado em uma coleção de documentos ditos originais. Para realizar essa tarefa, é proposto um método de detecção de plágio composto por cinco fases principais: normalização do idioma, recuperação dos documentos candidatos, treinamento do classificador, análise de plágio, pós-processamento. Uma vez que o método é projetado para detectar plágio entre documentos escritos em idiomas diferentes, nós usamos um language guesser para identificar o idioma de cada documento e um tradutor automático para traduzir todos os documentos para um idioma comum (para que eles possam ser analisados de uma mesma forma). Após a normalização, nós aplicamos um algoritmo de classificação com o objetivo de construir um modelo que consiga diferenciar entre um trecho plagiado e um trecho não plagiado. Após a fase de treinamento, os documentos suspeitos podem ser analisados. Um sistema de recuperação é usado para buscar, baseado em trechos extraídos de cada documento suspeito, os trechos dos documentos originais que são mais propensos de terem sido utilizados como fonte de plágio. Somente após os trechos candidatos terem sido retornados, a análise de plágio é realizada. Por fim, uma técnica de pós-processamento é aplicada nos resultados da detecção a fim de juntar os trechos plagiados que estão próximos um dos outros. Nós avaliamos o métodos utilizando três coleções de testes disponíveis. Duas delas foram criadas para as competições PAN (PAN’09 e PAN’10), que são competições internacionais de detecção de plágio. Como apenas um pequeno percentual dos casos de plágio dessas coleções era multilíngue, nós criamos uma coleção com casos de plágio multilíngue artificiais. Essa coleção foi chamada de ECLaPA (Europarl Cross-Language Plagiarism Analysis). Os resultados alcançados ao analisar as três coleções de testes mostraram que o método proposto é uma alternativa viável para a tarefa de detecção de plágio multilíngue. / Plagiarism is one of the most serious forms of academic misconduct. It is defined as “the use of another person's written work without acknowledging the source”. As a countermeasure to this problem, there are several methods that attempt to automatically detect plagiarism between documents. In this context, this work proposes a new method for Cross-Language Plagiarism Analysis. The method aims at detecting external plagiarism cases, i.e., it tries to detect the plagiarized passages in the suspicious documents (the documents to be investigated) and their corresponding text fragments in the source documents (the original documents). To accomplish this task, we propose a plagiarism detection method composed by five main phases: language normalization, retrieval of candidate documents, classifier training, plagiarism analysis, and postprocessing. Since the method is designed to detect cross-language plagiarism, we used a language guesser to identify the language of the documents and an automatic translation tool to translate all the documents in the collection into a common language (so they can be analyzed in a uniform way). After language normalization, we applied a classification algorithm in order to build a model that is able to differentiate a plagiarized text passage from a non-plagiarized one. Once the classifier is trained, the suspicious documents can be analyzed. An information retrieval system is used to retrieve, based on passages extracted from each suspicious document, the passages from the original documents that are more likely to be the source of plagiarism. Only after the candidate passages are retrieved, the plagiarism analysis is performed. Finally, a postprocessing technique is applied in the reported results in order to join the contiguous plagiarized passages. We evaluated our method using three freely available test collections. Two of them were created for the PAN competitions (PAN’09 and PAN’10), which are international competitions on plagiarism detection. Since only a small percentage of these two collections contained cross-language plagiarism cases, we also created an artificial test collection especially designed to contain this kind of offense. We named the test collection ECLaPA (Europarl Cross-Language Plagiarism Analysis). The results achieved while analyzing these collections showed that the proposed method is a viable approach to the task of cross-language plagiarism analysis.
|
279 |
Suporte a consultas temporais por palavras-chave em documentos XML / Supporting temporal keyword queries on XML documentsManica, Edimar January 2010 (has links)
Consultas por palavras-chave permitem o acesso fácil a dados XML, uma vez que não exigem que o usuário aprenda uma linguagem de consulta estruturada nem estude possíveis esquemas de dados complexos. Com isso, vários motores de busca XML foram propostos para permitir a extração de fragmentos XML relevantes para consultas por palavras-chave. No entanto, esses motores de busca tratam as expressões temporais da mesma forma que qualquer outra palavra-chave. Essa abordagem ocasiona inúmeros problemas, como por exemplo, considerar como casamentos para uma expressão temporal nodos do domínio preço ou código. Este trabalho descreve TPI (Two Phase Interception), uma abordagem que permite o suporte a consultas temporais por palavras-chave em documentos XML orientados a dados. O suporte a consultas temporais é realizado através de uma camada adicional de software que executa duas interceptações no processamento de consultas, realizado por um motor de busca XML. Esta camada adicional de software é responsável pelo tratamento adequado das informações temporais presentes na consulta e no conteúdo dos documentos XML. O trabalho ainda especifica TKC (Temporal Keyword Classification), uma classificação de consultas temporais que serve de guia para qualquer mecanismo de consulta por palavras-chave, inclusive TPI. São apresentados os algoritmos de mapeamento das diferentes formas de predicados temporais por palavras-chave, especificadas em TKC, para expressões relacionais a fim de orientar a implementação do processamento das consultas temporais. É proposto um índice temporal e definidas estratégias para identificação de caminhos temporais, desambiguação de formatos de valores temporais, identificação de datas representadas por vários elementos e identificação de intervalos temporais. São demonstrados experimentos que comparam a qualidade, o tempo de processamento e a escalabilidade de um motor de busca XML com e sem a utilização de TPI. A principal contribuição desse trabalho é melhorar significativamente a qualidade dos resultados de consultas temporais por palavras-chave em documentos XML. / Keyword queries enable users to easily access XML data, since the user does not need to learn a structured query language or study possibly complex data schemas. Therewith, several XML search engines have been proposed to extract relevant XML fragments in response to keyword queries. However, these search engines treat the temporal expressions as any other keyword. This approach may lead to several problems. It could, for example, consider prices and codes as matches to a temporal expression. This work describes TPI (Two Phase Interception), an approach that supports temporal keyword queries on data-centric XML documents. The temporal query support is performed by adding an additional software layer that executes two interceptions in the query processing performed by a XML search engine. This additional software layer is responsible for the adequate treatment of the temporal expressions contained in the query and in the contents of the XML documents. This work also specifies TKC (Temporal Keyword Classification), a temporal query classification to be used as guidance for any keyword query mechanism, including TPI. We present the algorithms for mapping different temporal predicates expressed by keywords to relational expressions in order to guide the implementation of the temporal query processing. We propose a temporal index together with strategies to perform temporal path identification, format disambiguation, identification of dates represented by many elements and detection of temporal intervals. This work also reports on experiments which evaluate quality, processing time and scalability of an XML search engine with TPI and without TPI. The main contribution of this work is the significant improvement in the quality of the results of temporal keyword queries on XML documents.
|
280 |
Indexing and querying dataspacesMergen, Sérgio Luis Sardi January 2011 (has links)
Over theWeb, distributed and heterogeneous sources with structured and related content form rich repositories of information commonly referred to as dataspaces. To provide access to this heterogeneous data, information integration systems have traditionally relied on the availability of a mediated schema, along with mappings between this schema and the schema of the source schemas. On dataspaces, where sources are plentiful, autonomous and extremely volatile, a system based on the existence of a pre-defined mediated schema and mapping information presents several drawbacks. Notably, the cost of keeping the mappings up to date as new sources are found or existing sources change can be prohibitively high. We propose a novel querying architecture that requires neither a mediated schema nor source mappings, which is based mainly on indexing mechanisms and on-the-fly rewriting algorithms. Our indexes are designed for data that is represented as relations, and are able to capture the structure of the sources, their instances and the connections between them. In the absence of a mediated schema, the user formulates structured queries based on what she expects to find. These queries are rewritten using a best-effort approach: the proposed rewriting algorithms compare a user query against the source schemas and produces a set of rewritings based on the matches found. Based on this architecture, two different querying approaches are tested. Experiments show that the indexing and rewriting algorithms are scalable, i.e., able to handle a very large number of structured Web sources; and that support simple, yet expressive queries that exploit the inherent structure of the data.
|
Page generated in 0.0547 seconds