Spelling suggestions: "subject:"metadata."" "subject:"datadata.""
321 |
Representação, acesso, uso e reuso da imagem digital /Simionato, Ana Carolina. January 2012 (has links)
Orientador: Plácida Leopoldina Ventura Amorim da Costa Santos / Banca: Elvis Fusco / Banca: Ricardo César Gonçalves Sant'Ana / Resumo: Em busca do real ou da lembrança, as técnicas da imagem junto com a tecnologia avançam, com números inimagináveis de informações armazenadas e disseminadas no meio digital. Há diversos dispositivos no mercado, que quando utilizados, armazenam e reproduzem suas expressões sem uma adequada preocupação com o tratamento informacional. Contudo, todas essas expressões imagéticas necessitam de uma recuperação eficiente, caso contrário, se viverá em uma desordem digital. Neste sentido, o objetivo desse trabalho é determinar dentro de um contexto intersemiótico, a construção de representações das imagens digitais, tendo como base os instrumentos no domínio bibliográfico, do Tratamento Descritivo da Informação, com a apresentação de um modelo conceitual para imagens digitais. A metodologia consiste em uma análise exploratória e descritiva da literatura disponível sobre o tema proposto, que permite a construção de um conhecimento teórico sobre os instrumentos que orientam a construção de representações na área de Ciência da Informação, a descrição é construída a partir de uma observação sistemática qualitativa dos materiais, por meio dos parâmetros de descrição imagética. Os sistemas de Recuperação da Imagem Baseado em Conteúdo (CBIR) explicitaram a necessidade da introdução de novas expressões, como a utilização de feições de cor, formas e texturas. Contudo, somente as propriedades imagéticas não solucionam o problema para o acesso as imagens, pois construção da descrição do objeto informacional deve garantir sua unicidade, de modo que, possa ser inserida em diferentes contextos mantendo a integralidade dos dados. Nesse contexto, a utilização dos instrumentos para descrição... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: In search of real or memory, imaging techniques along with the technology advance, with unimaginable numbers of information stored and disseminated in digital media. There are several devices on the market that when used, store and reproduce their expressions with no concern for the treatment of information. However, all these expressions imagery require efficient recovery, otherwise it will live in a digital disorder. In this sense, the objective of this study is to determine within a context intersemiotic, the construction of representations of digital images, based on the instruments in the field of bibliography, Description of Treatment Information (TDI), by presenting a conceptual model for digital images. The methodology consists of a descriptive and exploratory analysis of available literature on the theme, which allows the construction of a theoretical knowledge of the instruments that guide the construction of representations in the field of Information Science, the description is constructed from an observation qualitative systematic material by means of parameters describing imagery. Retrieval Systems Based on Image Content (CBIR) explained the need for the introduction of new expressions, such as using features of color, shapes and textures. However, only the properties imagery not solve the problem for the recovery of images, for construction of the description of the object informational must ensure its uniqueness, so that it can be inserted in different contexts maintaining the integrity of data. In this context, the use of tools for describing information resources is required. The results present the Functional Requirements for Digital Imagery Data - RFDID, with the view that the guarantee of data persistence and instancing feature with consistency and integrity are essential requirements for the representation of a digital image / Mestre
|
322 |
Linked Data: ligação de dados bibliográficos / Linked Data: linking bibliographic dataArakaki, Felipe Augusto [UNESP] 19 December 2016 (has links)
Submitted by Felipe Augusto Arakaki null (fe.arakaki@gmail.com) on 2017-01-12T01:15:25Z
No. of bitstreams: 1
arakaki_fa_me_mar.pdf: 2109422 bytes, checksum: 9bf882c8004f72d612e575d1f50108dc (MD5) / Approved for entry into archive by Juliano Benedito Ferreira (julianoferreira@reitoria.unesp.br) on 2017-01-12T12:44:41Z (GMT) No. of bitstreams: 1
arakaki_fa_me_mar.pdf: 2109422 bytes, checksum: 9bf882c8004f72d612e575d1f50108dc (MD5) / Made available in DSpace on 2017-01-12T12:44:41Z (GMT). No. of bitstreams: 1
arakaki_fa_me_mar.pdf: 2109422 bytes, checksum: 9bf882c8004f72d612e575d1f50108dc (MD5)
Previous issue date: 2016-12-19 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / As Unidades de Informação necessitam de constante atualização no uso das tecnologias disponíveis para otimizar o gerenciamento de recursos informacionais. As propostas da Web Semântica e as possibilidades apresentadas pelo Linked Data para descrição de acervos e a catalogação em bibliotecas para promoção e a ligação de dados, surgem como instrumentos importantes na gestão do dado bibliográfico. A questão desse estudo caracteriza-se em quais as possibilidades de ligação de dados bibliográficos nas práticas de Linked Data? O objetivo geral é analisar os principais aspectos da proposta do Linked Data com o intuito de promover a ligação e interoperabilidade de dados bibliográficos na Web. A metodologia é caracterizada por uma pesquisa qualitativa e exploratória por meio de revisão bibliográfica sobre o Linked Data. A relevância e justificativa da proposta é corroborar com conhecimento teórico sobre os instrumentos que orientam a ligação de dados do domínio bibliográfico na Web, pois trará benefícios aos usuários e a prática do catalogador. Como resultados foram identificadas iniciativas que estão trabalhando em estruturar seus catálogos para promoção do Linked Data, entre elas destacaram-se os trabalhos da Library of Congress e da Online Computer Library Center (OCLC) dos Estados Unidos e o trabalho da Europeana. A primeiro momento, a estruturação dos dados de bibliotecas mostra-se um trabalho minucioso e detalhado. Entretanto, com o uso das tecnologias da Web Semântica e os princípios do Linked Data, apresenta maior flexibilidade para construção de registros. Dessa forma, um catalogador poderá realizar ligações entre recursos por meio dos identificadores únicos, evitando que o catalogador realize novamente a descrição desse outro recurso. / The Information Centers need constant updating without using the available technologies to optimize the management of informational resources. As proposals of the Semantic Web and as possibilities presented by Data linked to description of collections and a cataloging in libraries for the promotion and connection data, as important tools in the management of the bibliographic data. The question of this study is characterized in such as possibilities of connection of bibliographic data in the practices of Linked Data? The principal objective is to analyze the main aspects of the Linked Data proposal in order to promote the connection and interoperability of bibliographic data on the Web. The methodology is characterized by a qualitative and exploratory research through a bibliographic review of Linked Data. The relevance and justification of the proposal is corroborated with theoretical knowledge about the instruments that guide the bibliographic domain data link in the Web, as it will bring benefits to the users. Thus, initiatives have been identified that are working on structuring their catalogs to promote Linked Data, including the work of the Library of Congress and the Online Computer Library Center (OCLC) in the United States and the work of Europeana. At first, the structuring of library data shows a detailed and detailed work. However, with the use of Semantic Web technologies and the principles of Linked Data, it presents greater flexibility for the construction of registries. In this way, a cataloger can establish connections between resources through unique identifiers, causing the cataloger to re-describe the other resource. Initially, the structuring of library data shows detailed and detailed work. With the use of Semantic Web technologies and the principles of Linked Data, it presents greater flexibility for the construction of registries. In this way, a cataloger can make connections between resources through the unique identifiers, causing the cataloger to re-describe the other resource.
|
323 |
Decomposição e reúso de componentes baseados em metadados para interfaces gráficas do usuário em aplicações corporativas web. / Decomposition and reuse of metadata-based components for graphical user interfaces in corporate Web applications.MIRANDA, Rodrigo de Almeida Vilar de. 04 May 2018 (has links)
Submitted by Lucienne Costa (lucienneferreira@ufcg.edu.br) on 2018-05-04T20:33:58Z
No. of bitstreams: 1
RODRIGO DE ALMEIDA VILAR DE MIRANDA – TESE (PPGCC) 2017.pdf: 5018332 bytes, checksum: 3305ba84ae725675348e6e3b9a1684e9 (MD5) / Made available in DSpace on 2018-05-04T20:33:58Z (GMT). No. of bitstreams: 1
RODRIGO DE ALMEIDA VILAR DE MIRANDA – TESE (PPGCC) 2017.pdf: 5018332 bytes, checksum: 3305ba84ae725675348e6e3b9a1684e9 (MD5)
Previous issue date: 2017-09-04 / Developers can use metadata in enterprise applications in order to reduce coupling between graphical user interface and domain model layers. Therefore, user interface components are replaced by meta components, which can be easily reused in different domains, enhancing productivity of application development. However, the current metadata-based approaches define complex components for graphical interface, mixing responsibilities in an artifact and reducing maintainability. In this work, we propose an approach to implement meta components s into small artifacts with encapsulated responsibilities, increasing its reuse and easing its
customization. This approach has been developed as a pattern language with seven design patterns and two architectural patterns, which were defined based on existing approaches, abstracting good practices and proposing solutions for weaknesses. Two open source framworks, Geneguis and Angular M, were implemented using the pattern language concepts in order to support User interface development for enterprise applications. The productivity of Angular M was compared to Ruby on Rails in an experiment with 15 software developers that performed 12 user interface customization tasks. The statistical analysis of experiment
results has shown that: for the six customization tasks where components were reused, Angular M was significantly more productive in all tasks; and for the six tasks without reused components, Angular M was significantly more productive in two tasks, Ruby on Rails was significantly more productive in one task and the other three tasks did not show significant difference. The average increase of productivity for Angular M, in comparison with Ruby on Rails, was 20% for all 12 scenarios and 64% for the six scenarios with component reuse. / Metadados podem ser manipulados em aplicações corporativas a fim de reduzir o acoplamento entre a camada da interface gráfica do usuário e a camada do modelo do domínio. Dessa forma, os componentes da interface gráfica são substituídos por meta componentes, que podem ser facilmente reutilizados em domínios diferentes, aumentando a produtividade no desenvolvimento desse tipo de aplicação. Todavia, nas abordagens baseadas em metadados existentes, os meta componentes de interface são complexos, entrelaçam responsabilidades em um mesmo artefato e possuem baixa manutenibilidade. Neste trabalho propõe-se uma abordagem que organiza os meta componentes através de artefatos pequenos e com
responsabilidades bem definidas, com a finalidade de aumentar o potencial de reúso e facilitar a sua customização. A abordagem proposta foi desenvolvida conceitualmente por meio de uma linguagem de padrões, contendo sete padrões de projeto e dois padrões arquiteturais que foram catalogados a partir de abordagens existentes, abstraindo as boas práticas e propondo correções para as deficiências. Concretamente a abordagem foi implementada em dois arcabouços de código aberto, Geneguis e Angular M, para o desenvolvimento de interface gráfica em aplicações corporativas. Angular M teve a produtividade comparada com Ruby on Rails em um experimento com 15 desenvolvedores de software que atuaram
sobre 12 cenários de customização de interface gráfica. Após uma análise da significância estatística dos resultados, foi observado que: nos seis cenários propostos onde havia reúso de componentes, Angular M foi mais produtivo em todos; e nos seis cenários onde não havia reúso de componentes, Angular M foi mais produtivo em dois, Ruby on Rails foi mais produtivo em um e não houve diferença significante nos outros três cenários. O ganho médio de produtividade com Angular M, em relação a Ruby on Rails, foi 20% nos cenários gerais e 64% ao considerar apenas os cenários com reúso de componentes.
|
324 |
Metadata extraction from scientific documents in PDF / Extração de metadados em artigos científicos no formato PDFSouza, Alan Pinto January 2014 (has links)
A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão permite a geracão de metadados que são inclusos dentro do documento. Porém, muitos autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração automática de metadados foi classificada como uma das tarefas mais desafiadoras na área de engenharia de documentos. Este trabalho propõe Artic, um método para extração de metadados de artigos científicos que aplica um modelo probabilístico em duas camadas baseado em Conditional Random Fields. A primeira camada visa identificar as secões principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai título, nome dos autores, emails, afiliações e informações sobre a conferência onde o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os resultados superaram a solução estado-da-arte usada como baseline, atingindo uma precisão acima de 99%. / Most scientific articles are available in PDF format. The PDF standard allows the generation of metadata that is included within the document. However, many authors do not define this information, making this feature unreliable or incomplete. This fact has been motivating research which aims to extract metadata automatically. Automatic metadata extraction has been identified as one of the most challenging tasks in document engineering. This work proposes Artic, a method for metadata extraction from scientific papers which employs a two-layer probabilistic framework based on Conditional Random Fields. The first layer aims at identifying the main sections with metadata information, and the second layer finds, for each section, the corresponding metadata. Given a PDF file containing a scientific paper, Artic extracts the title, author names, emails, affiliations, and venue information. We report on experiments using 100 real papers from a variety of publishers. Our results outperformed the state-of-the-art system used as the baseline, achieving a precision of over 99%.
|
325 |
The Impact of Subject Indexes on Semantic Indeterminacy in Enterprise Document RetrievalJanuary 2012 (has links)
abstract: Ample evidence exists to support the conclusion that enterprise search is failing its users. This failure is costing corporate America billions of dollars every year. Most enterprise search engines are built using web search engines as their foundations. These search engines are optimized for web use and are inadequate when used inside the firewall. Without the ability to use popularity-based measures for ranking documents returned to the searcher, these search engines must rely on full-text search technologies. The Information Science literature explains why full-text search, by itself, fails to adequately discriminate relevant from irrelevant documents. This failure in discrimination results in far too many documents being returned to the searcher, which causes enterprise searchers to abandon their searches in favor of re-creating the documents or information they seek. This dissertation describes and evaluates a potential solution to the problem of failed enterprise search derived from the Information Science literature: subject-aided search. In subject-aided search, full-text search is augmented with a search of subject metadata coded into each document based upon a hierarchically structured subject index. Using the Design Science methodology, this dissertation develops and evaluates three IT artifacts in the search for a solution to the wicked problem of enterprise search failure. / Dissertation/Thesis / Ph.D. Business Administration 2012
|
326 |
Extracting metadata from textual documents and utilizing metadata for adding textual documents to an ontologyCaubet, Marc, Cifuentes, Mònica January 2006 (has links)
The term Ontology is borrowed from philosophy, where an ontology is a systematic account of Existence. In Computer Science, ontology is a tool allowing the effective use of information, making it understandable and accessible to the computer. For these reasons, the study of ontologies gained growing interest recently. Our motivation is to create a tool able to build ontologies from a set of textual documents. We present a prototype implementation which extracts metadata from textual documents and uses the metadata for adding textual documents to an ontology. In this paper we will investigate which techniques we have available and which ones have been used to accomplish our problem. Finally, we will show a program written in Java which allows us to build ontologies from textual documents using our approach.
|
327 |
Anotações colaborativas como hiperdocumentos de primeira classe na Web Semântica. / Collaborative annotations as first-class hyperdocuments in the Semantic Web.Claudia Akemi Izeki 25 October 2001 (has links)
Anotações têm sido associadas a documentos em todas as gerações de sistemas hipermídia. Este trabalho explora o uso de anotações como hiperdocumentos de primeira classe baseados em sua semântica. Nesse contexto, anotações são entidades próprias, na forma de hipertexto, possuindo seus próprios atributos e operações. A Web Semântica é uma extensão da Web atual na qual é dado um significado bem definido à informação, permitindo que informações sejam compreensíveis não só por humanos, mas também por computadores. Este trabalho possui como objetivo prover um serviço aberto, o GroupNote, de suporte a anotações colaborativas como hiperdocumentos de primeira classe na Web Semântica. Para prover esse serviço foram realizadas a modelagem conceitual e a definição e implementação de uma API, a API GroupNote. Como um estudo de caso do serviço GroupNote foi construída a aplicação WebNote, uma ferramenta que permite que usuários tenham seu próprio repositório de anotações na Web. / Annotations have been associated with documents in all the generations of hypermedia systems. This work investigates annotations as first class hyperdocuments based on their semantics: annotations are entities (with their own attributes and operations) in the hypertext form. The Semantic Web is an extension of the current Web in which a well-defined meaning is given to information, allowing the information to be comprehensible not only by humans, but also by machines. This work aims at providing an open service, GroupNote, to support collaborative annotations as first class hyperdocuments in the Semantic Web. The provision of the GroupNote service demanded the conceptual modeling, the definition and implementation of its API. As a case study of the GroupNote service, the WebNote application was built as a tool that allows users to have your own repository of annotations in the Web.
|
328 |
Proposta para criação e catalogação de objetos de aprendizagem interoperáveis / A proposal for interoperable learning objects construction and cataloguingBordignon, Alexandro January 2010 (has links)
Até pouco tempo, o computador pessoal era o único dispositivo disponível para acesso a conteúdo digital. Com a introdução da TV digital interativa no Brasil e a evolução dos aparelhos celulares, essas plataformas se tornaram alternativas de acesso em momentos onde não está presente um computador e também como opção para a população de menor poder aquisitivo, visto que são dispositivos mais baratos. Porém, o desenvolvimento de objetos de aprendizagem ainda continua sendo pensado para uma única plataforma, desperdiçando grande parte do potencial de uso. Quando raramente são previstos para mais de uma plataforma, o desenvolvimento de cada versão é realizado de forma isolada, gerando redundância de conteúdo e elevando desnecessariamente o custo de criação e manutenção. Nesse contexto, este trabalho traz uma nova abordagem visando a criação de objetos de aprendizagem interoperáveis, ou seja, desenvolvidos de forma que o mesmo conteúdo possa ser executado nas plataformas Web, TV digital e dispositivos móveis. Para isso, inicialmente foram identificados os recursos e restrições existentes em cada uma das plataformas citadas, assim como as principais recomendações de usabilidade. O resultado desse estudo gerou as seguintes recomendações: a) mecanismo de construção de conteúdo uma única vez de forma que ele se adapte para todas as plataformas; b) mecanismos de adaptação da mesma mídia visando seguir critérios de usabilidade de cada plataforma (ex: tamanho e cor do texto); c) mecanismos de reconhecimento de cada plataforma e envio da mídia adequada para cada uma. Outro aspecto complementar tratado foi em relação à catalogação de objetos de aprendizagem, uma vez que os padrões de metadados educacionais existentes não prevêem o uso de objetos de aprendizagem por diferentes plataformas. Em função dessa necessidade, realizou-se o estudo dos principais padrões de metadados educacionais, assim como os utilizados nas plataformas Web e de TV digital. Como resultado, duas extensões foram propostas aos padrões de metadados educacionais, possibilitando: a) indicar em quais plataformas é possível utilizar o objeto de aprendizagem e b) criar segmentos lógicos de um objeto de aprendizagem e, opcionalmente, agrupá-los por características em comum. Para validação, foram efetuadas algumas implementações de diferentes objetos de aprendizagem. Esses objetos de aprendizagem também foram catalogados com as extensões de metadados propostas, exemplificando seu uso. / Until recently, the personal computer was the unique device available for accessing digital content. With the introduction of interactive digital television in Brazil and the evolution of mobile phones, these platforms have become alternatives for content accessing in moments where the personal computer is not available. Additionally, it is an option for people with less purchasing capability, since they are cheaper devices. However, development of learning objects is still being designed for a single platform, wasting much of its potential usage. When rarely provided for more than one platform, the development of each version is performed in isolation, creating redundant content and unnecessarily raising the cost of construction and maintenance. In this context, this dissertation presents a new approach towards the creation of interoperable learning objects, i.e., developed in a way that the same content can be executed over the Web, digital television, and mobile devices. For that, the resources and restrictions for the above platforms were initially identified, as well the main interface usability recommendations. The result of this study generated the following recommendations: a) mechanisms to create the content just once in a way that adapts itself for each platform; b) mechanisms for media adaptation, following usability recommendations for each platform (font size and color, for example); c) mechanisms to recognize client platform and send the adequate media. Another complementary aspect that was considered is learning object cataloguing, since the existing educational metadata standards do not foresee the usage of learning objects towards different platforms. Based in this need, the study of main educational metadata standards was done, like as those used in Web and digital television. As result, two extensions were proposed to the educational metadata standards, allowing: a) the indication of in which platform it is possible to use the learning object and b) the creation of learning object logical segments and, optionally, the possibility grouping themselves by common features. For validation, some different learning objects implementations were performed. Those learning objects have also been cataloged with the proposed metadata extensions, illustrating their use.
|
329 |
Um serviço de geração de metadados compatível com o padrão OAI para o sistema JEMS / An OAI-Compatible Metadata Generation Service for the JEMS SystemContessa, Diego Fraga January 2006 (has links)
A publicação de trabalhos científicos é uma das principais formas de avanço da Ciência, dando aos autores o reconhecimento de seu trabalho por parte da comunidade científica. A divulgação de trabalhos publicados é de grande interesse tanto da parte de quem os desenvolve (autores), quanto de quem pode vir a se beneficiar dos resultados (a comunidade científica em geral). Neste contexto, as bibliotecas digitais surgem como uma alternativa para simplificar o processo de publicação de artigos. Nelas encontram-se repositórios de dados que possuem informações sobre os artigos publicados bem como links para os próprios artigos, ou mesmo os arquivos propriamente ditos. Dois pontos importantes na implementação e uso de bibliotecas digitais são a interoperabilidade e a padronização dos metadados que serão utilizados pelos repositórios. Essas questões podem ser resolvidas através da OAI (Open Archives Initiative) e pelo formato Dublin Core. Um exemplo de biblioteca digital que utiliza o padrão OAI é a BDBComp (Biblioteca Digital Brasileira de Computação), que disponibiliza os metadados sobre os artigos publicados nos eventos de computação no Brasil. Por outro lado, a SBC (Sociedade Brasileira de Computação) disponibiliza aos eventos que promove (e atualmente também a alguns eventos internacionais) o sistema JEMS para o gerenciamento das submissões dos artigos. Através dele os artigos são avaliados, e é feita a seleção daqueles que serão publicados em cada evento ou periódico que utiliza o sistema. Neste trabalho é apresentado um serviço de geração de metadados compatível com o padrão OAI, desenvolvido para disponibilizar os metadados sobre os artigos publicados nas conferências ou periódicos que utilizem o JEMS. Os metadados gerados são disponibilizados para bibliotecas digitais, como a BDBComp. O serviço é de fato um provedor de dados OAI, que utiliza dados provenientes do sistema JEMS e os disponibiliza no formato Dublin Core a bibliotecas digitais através do protocolo OAI-PMH, o qual é baseado em XML. Este provedor de dados foi desenvolvido para uso com a biblioteca digital da SBC, e oferece um aumento da quantidade e da qualidade dos metadados disponibilizados sobre os artigos publicados nos eventos e periódicos gerenciados pelo JEMS. / The publication of scientific works is one of the greatest forms of Science progress, giving the authors recognition from scientific community about their work. The publication spreading is of great interest for both the authors and those that can be benefited from the results. In this context, the digital libraries appear as an alternative to simplify the paper publication process. They own data repositories that have information about published papers as well as links for the papers. Two important points in the implementation and use of digital libraries are metadata interoperability and metadata standadization. These questions can be solved by the OAI (Open Archives Initiative) and by the Dublin Core format. An example of digital library that uses the OAI standard is BDBComp (Biblioteca Digital Brasileira de Computação), which have metadata about papers published in computing science events in Brazil. On the other hand, SBC (Sociedade Brasileira de Computação) have the JEMS system for use in the management of paper submission for the events that SBC promotes (and nowadays for some international events too). Through JEMS the papers are evaluated, and a selection of the accepted papers can be done. This work presents an OAI-compatible metadata generation service developed to offer metadata about the papers published in conferences or journals that use JEMS. The generated metadata are made available to digital libraries, like BDBComp. The service is in fact an OAI data provider that uses data obtained from JEMS and offer the metadata in the Dublin Core format to digital libraries, through the OAI-PMH protocol, which is based on XML. This data provider was developed for use with the SBC’s digital library. It gives an improvement on the quantity and quality of the available metadata about the papers published by the events and journals managed by JEMS.
|
330 |
MD-PROM : um mecanismo de deduplicação de metadados e rastreio da proveniência / MD-PROM : a mechanism for metadata deduplication and provenance tracingBorges, Eduardo Nunes January 2008 (has links)
Bibliotecas digitais são repositórios de objetos digitais que oferecem serviços aos seus usuários como pesquisa e publicação desses objetos. Cada objeto digital é descrito por um conjunto de metadados que especifica a forma como esse objeto pode ser recuperado. Sistemas de integração de bibliotecas digitais indexam objetos digitais adquiridos de fontes diferentes, os quais podem estar representados através de vários padrões de metadados. Estes metadados são heterogêneos tanto em conteúdo quanto em estrutura. Conseqüentemente, os sistemas de integração de bibliotecas digitais não estão aptos a fornecer respostas livres de informação redundante que integrem as várias fontes de dados. Quando um usuário realiza uma consulta sobre várias bibliotecas digitais, é interessante que sejam retornados metadados integrados das diversas fontes e a origem de cada informação recuperada, ou seja, a biblioteca digital que publicou aquela informação (metadado). O uso de proveniência de dados nas consultas a metadados em sistemas de integração de bibliotecas digitais, de modo a rastrear a origem das informações recuperadas, permite que usuários avaliem a qualidade das bibliotecas digitais. Este trabalho apresenta o MD-PROM (Metadata Deduplication and PROvenance tracing Mechanism), um mecanismo de deduplicação de metadados e rastreio da proveniência. Este mecanismo identifica metadados de objetos digitais duplicados em bibliotecas digitais distintas, integra os metadados duplicados e recupera informações de proveniência dos metadados integrados. A identificação de duplicatas é realizada através do casamento automático de esquemas dos metadados e da aplicação de funções de similaridade sobre os principais metadados que descrevem os objetos digitais. São propostas a função de similaridade de nomes próprios IniSim, o algoritmo de casamento de autores NameMatch e o algoritmo de casamento de objetos digitais Digital Object Match que identifica múltiplas representações dos metadados. Além dos algoritmos de similaridade, o MD-PROM especifica uma estrutura baseada em árvore para representar a proveniência de dados que identifica a origem dos metadados, bem como os valores dos quais os metadados foram derivados. Também é proposto um algoritmo de integração de metadados e rastreio da proveniência denominado MetadataProv. A principal contribuição do trabalho é melhorar a qualidade da pesquisa do usuário de bibliotecas digitais. O MD-PROMfornece uma resposta única, livre de redundância e sem perda de informação relevante para consultas a metadados de objetos digitais oriundos de bibliotecas digitais distintas. Além disso, são recuperadas informações de proveniência que permitem ao usuário verificar a veracidade e confiabilidade dos metadados retornados pelas consultas em sistemas de integração de bibliotecas digitais. São apresentados também os resultados de diversos experimentos que avaliam a qualidade da deduplicação de objetos digitais comparando a técnica proposta com outras abordagens estudadas. / Digital libraries are repositories of digital objects that provide services to their users such as search and publication of these objects. Each digital object is described by a set of metadata that specifies how this object can be retrieved. Integrated digital library systems index digital objects acquired from different sources, which can be represented through several metadata patterns. These metadata are heterogeneous both in content and in structure. Consequently, the integrated digital library systems are not able to provide answers free from redundant information that integrate the several data sources. When a user performs a query on various digital libraries, it is interesting to return integrated metadata from several sources and the origin of each information retrieved, that is, the digital library which published that information (metadata). Using data provenance in metadata queries on integrated digital library systems, so as to trace the origin of the information retrieved, allows users to analyze the quality of digital libraries. This work presents MD-PROM (Metadata Deduplication and PROvenance tracing Me- chanism), a mechanism for metadata deduplication and provenance tracing. This mechanism identifies duplicated digital objects metadata in different digital libraries, integrates duplicated metadata and retrieves provenance information of the integrated metadata. The identification of duplicates is performed through automatic metadata schema matching and through similarity functions applied over main metadata that describe the digital objects. The surname similarity function IniSim, the authors matching algorithm NameMatch and digital objects matching algorithm Digital Object Match, which identifies multiple representations of metadata, have been proposed. Besides the similarity algorithms, MD-PROM specifies a tree-based structure to represent the data provenance that identifies the origin of metadata as well as the values from which the metadata were derived. An algorithm for the integration of metadata and provenance tracing, called MetadataProv, is also proposed. The main contribution of this work is to improve the quality of the searches posed by the users of digital libraries. MD-PROM provides a single answer, free from redundancy and loss of relevant information related to queries on digital objects metadata from different digital libraries. In addition, provenance information is retrieved allowing the user to verify the accuracy and the reliability of the metadata returned by queries on integrated digital library systems. There are also reports on several experiments, which evaluate the quality of the deduplication of digital objects comparing the proposed technique with other approaches.
|
Page generated in 0.0586 seconds