Return to search

Uso de propriedades visuais-interativas na avaliação da qualidade de dados / Using visual-interactive properties in the data quality assessment

Os efeitos dos dados defeituosos sobre os resultados dos processos analíticos são notórios. Aprimorar a qualidade dos dados exige estabelecer alternativas a partir de vários métodos, técnicas e procedimentos disponíveis. O processo de Avaliação da Qualidade dos Dados - pAQD - provê relevantes insumos na definição da alternativa mais adequada por meio do mapeamento dos defeitos nos dados. Relevantes abordagens computacionais apoiam esse processo. Tais abordagens utilizam métodos quantitativos ou baseados em asserções que usualmente restringem o papel humano a interpretação dos seus resultados. Porém, o pAQD depende do conhecimento do contexto dos dados visto que é impossível confirmar ou refutar a presença de defeitos baseado exclusivamente nos dados. Logo, a supervisão humana é essencial para esse processo. Sistemas de visualização pertencem a uma classe de abordagens supervisionadas que podem tornar visíveis as estruturas dos defeitos nos dados. Apesar do considerável conhecimento sobre o projeto desses sistemas, pouco existe para o domínio da avaliação visual da qualidade dos dados. Isto posto, este trabalho apresenta duas contribuições. A primeira reporta uma taxonomia que descreve os defeitos relacionados aos critérios de qualidade da acuracidade, completude e consistência para dados estruturados e atemporais. Essa taxonomia seguiu uma metodologia que proporcionou a cobertura sistemática e a descrição aprimorada dos defeitos em relação ao estado-da-arte das taxonomias. A segunda contribuição reporta relacionamentos entre propriedades-defeitos que estabelecem que certas propriedades visuais-interativas são mais adequadas para a avaliação visual de certos defeitos em dadas resoluções de dados. Revelados por um estudo de caso múltiplo e exploratório, esses relacionamentos oferecem indicações que reduzem a subjetividade durante o projeto de sistemas de visualização de apoio a avaliação visual da qualidade dos dados. / The effects of poor data quality on the reliability of the outcomes of analytical processes are notorious. Improving data quality requires alternatives that combine procedures, methods, techniques and technologies. The Data Quality Assessment process - DQAp - provides relevant and practical inputs for choosing the most suitable alternative through a data defects mapping. Relevant computational approaches support this process. Such approaches apply quantitative or assertions-based methods that usually limit the human interpretation of their outcomes. However, the DQAp process strongly depends on data context knowledge since it is impossible to confirm or refute a defect based only on data. Hence, human supervision is essential throughout this process. Visualization systems belong to a class of supervised approaches that can make visible data defect structures. Despite their considerable design knowledge encodings, there is little support design to data quality visual assessment. Therefore, this work reports two contributions. The first reports a taxonomy that organizes a detailed description of defects on structured and timeless data related to the quality criteria of accuracy, completeness and consistency. This taxonomy followed a methodology which enabled a systematic coverage of data defects and an improved description of data defects in regard to state-of-art literature. The second contribution reports a set of property-defect relationships that establishes that certain visual and interactive properties are more suitable for visual assessment of certain data defects in a given data resolution. Revealed by an exploratory and multiple study case, these relationships provides implications that reduce the subjectivity in the visualization systems design for data quality visual assessment.

Identiferoai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-08092016-164834
Date29 April 2016
CreatorsJosko, João Marcelo Borovina
ContributorsFerreira, João Eduardo
PublisherBiblioteca Digitais de Teses e Dissertações da USP
Source SetsUniversidade de São Paulo
LanguagePortuguese
Detected LanguagePortuguese
TypeTese de Doutorado
Formatapplication/pdf
RightsLiberar o conteúdo para acesso público.

Page generated in 0.0025 seconds