O número de banco de dados de biologia molecular presentes na Web vem aumentando significativamente nos últimos anos. A dificuldade de localizar estes bancos de dados na Web incentivou a criação de uma série de catálogos. Mesmo com estes catálogos, persiste o desafio de selecionar aqueles bancos de dados que possuem maior qualidade. Normalmente, a seleção é feita por usuários, que nem sempre possuem o conhecimento necessário e enfrentam problemas pela ausência de uma descrição mais rica dos bancos de dados nestes catálogos. Esta ausência de uma descrição mais rica dos bancos de dados gerou iniciativas recentes que visam identificar metadados relevantes para descrição dos bancos de dados de biologia molecular. No entanto, até o momento, como utilizar estes metadados na seleção dos bancos de dados presentes em um catálogo, relacionando estes às dimensões de qualidade de dados, é um tema pouco explorado. Da mesma forma, o uso de Web metrics, utilizadas na seleção de páginas Web, vem sendo quase ignorado na determinação da qualidade de bancos de dados de biologia molecular. Tendo em vista este cenário, nesta tese foi desenvolvido um modelo de qualidade que visa auxiliar na seleção de bancos de dados de biologia molecular presentes em catálogos na Web a partir da avaliação global de um banco de dados por meio de metadados e Web metrics. A definição deste modelo envolve adoção de metadados propostos em outros trabalhos, a proposição de novos metadados e a análise das dimensões de qualidade de dados. Experimentos são realizados de forma a avaliar a utilidade de alguns dos metadados e Web metrics na determinação da qualidade global de um banco de dados. A representação dos metadados, dimensões de qualidade, indicadores de qualidade e métricas usando recursos de Web Semântica é também discutida. O principal cenário de aplicação da abordagem é relacionado à necessidade que um usuário tem de escolher o melhor banco de dados para buscar informações relevantes para o seu trabalho dentre os existentes em um catálogo. Outro cenário está relacionado a sistemas que integram dados de fontes distintas e que necessitam, em muitos casos, reduzir o número de bancos de dados candidatos a um processo de integração. / The number of molecular biology databases has increased in the last years. The difficulty of identifying these databases on the Web is the motivation to create database catalogs. However, even using these catalogs, the challenge is how to identify the best databases within these sets of identified databases. In general, the selection process is done by users, who sometimes have little knowledge about databases related to a specific domain and will have difficulties to select the best databases. These difficulties are related to the absence of information about databases in these catalogs. This absence of information has generated some recent initiatives aiming to identify relevant metadata for describing molecular biology databases. However, at the present moment, how to use these metadata for selecting databases from a catalog, taking into account data quality dimensions, is underexplored. In a similar way, Web metrics used for selecting Web pages is almost ignored in the molecular biology databases evaluation process. In this scenario, this thesis defines a quality model, based on some identified data quality dimensions, aiming to help selecting a database from molecular biology database catalogs. This selection process is done by considering database metadata and Web metrics. The definition of this model involves the adoption of metadata from related works, the definition of new metadata and the analysis of data quality dimensions. A set of experiments evaluates the usefulness of metadata and Web metrics for evaluating the overall quality of databases. How to represent database metadata, quality dimensions, quality indicators and quality metrics using Semantic Web resources is also discussed. One application scenario relates to users who need to choose the best databases available in a catalog. Another application scenario is related to database integration systems in which it is necessary to determinate the overall quality of a database for reducing the number of databases to be integrated.
Identifer | oai:union.ndltd.org:IBICT/oai:lume.ufrgs.br:10183/54867 |
Date | January 2012 |
Creators | Lichtnow, Daniel |
Contributors | Oliveira, Jose Palazzo Moreira de |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UFRGS, instname:Universidade Federal do Rio Grande do Sul, instacron:UFRGS |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0023 seconds