Os efeitos dos dados defeituosos sobre os resultados dos processos analíticos são notórios. Aprimorar a qualidade dos dados exige estabelecer alternativas a partir de vários métodos, técnicas e procedimentos disponíveis. O processo de Avaliação da Qualidade dos Dados - pAQD - provê relevantes insumos na definição da alternativa mais adequada por meio do mapeamento dos defeitos nos dados. Relevantes abordagens computacionais apoiam esse processo. Tais abordagens utilizam métodos quantitativos ou baseados em asserções que usualmente restringem o papel humano a interpretação dos seus resultados. Porém, o pAQD depende do conhecimento do contexto dos dados visto que é impossível confirmar ou refutar a presença de defeitos baseado exclusivamente nos dados. Logo, a supervisão humana é essencial para esse processo. Sistemas de visualização pertencem a uma classe de abordagens supervisionadas que podem tornar visíveis as estruturas dos defeitos nos dados. Apesar do considerável conhecimento sobre o projeto desses sistemas, pouco existe para o domínio da avaliação visual da qualidade dos dados. Isto posto, este trabalho apresenta duas contribuições. A primeira reporta uma taxonomia que descreve os defeitos relacionados aos critérios de qualidade da acuracidade, completude e consistência para dados estruturados e atemporais. Essa taxonomia seguiu uma metodologia que proporcionou a cobertura sistemática e a descrição aprimorada dos defeitos em relação ao estado-da-arte das taxonomias. A segunda contribuição reporta relacionamentos entre propriedades-defeitos que estabelecem que certas propriedades visuais-interativas são mais adequadas para a avaliação visual de certos defeitos em dadas resoluções de dados. Revelados por um estudo de caso múltiplo e exploratório, esses relacionamentos oferecem indicações que reduzem a subjetividade durante o projeto de sistemas de visualização de apoio a avaliação visual da qualidade dos dados. / The effects of poor data quality on the reliability of the outcomes of analytical processes are notorious. Improving data quality requires alternatives that combine procedures, methods, techniques and technologies. The Data Quality Assessment process - DQAp - provides relevant and practical inputs for choosing the most suitable alternative through a data defects mapping. Relevant computational approaches support this process. Such approaches apply quantitative or assertions-based methods that usually limit the human interpretation of their outcomes. However, the DQAp process strongly depends on data context knowledge since it is impossible to confirm or refute a defect based only on data. Hence, human supervision is essential throughout this process. Visualization systems belong to a class of supervised approaches that can make visible data defect structures. Despite their considerable design knowledge encodings, there is little support design to data quality visual assessment. Therefore, this work reports two contributions. The first reports a taxonomy that organizes a detailed description of defects on structured and timeless data related to the quality criteria of accuracy, completeness and consistency. This taxonomy followed a methodology which enabled a systematic coverage of data defects and an improved description of data defects in regard to state-of-art literature. The second contribution reports a set of property-defect relationships that establishes that certain visual and interactive properties are more suitable for visual assessment of certain data defects in a given data resolution. Revealed by an exploratory and multiple study case, these relationships provides implications that reduce the subjectivity in the visualization systems design for data quality visual assessment.
Identifer | oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-08092016-164834 |
Date | 29 April 2016 |
Creators | João Marcelo Borovina Josko |
Contributors | João Eduardo Ferreira, Luiz Camolesi Júnior, Roberto Hirata Junior, Isabel Cristina Italiano, Ronaldo dos Santos Mello |
Publisher | Universidade de São Paulo, Ciência da Computação, USP, BR |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0032 seconds