Made available in DSpace on 2019-03-30T00:02:07Z (GMT). No. of bitstreams: 0
Previous issue date: 2018-08-30 / Scientific data is being generated and acquired in high volumes in support of studies in many domain areas. In current scenarios, data files containing values of variables (scientific measurements and/or study objects), are ultimately leveraged by data scientists in a series of data preparation tasks that aim to identify relationships between variables in a way that they can be reorganized in an aligned manner, e.g., rewritten as a single line in a tabular file following an alignment criterion. This criterion plays the role of a relationship between a number of distinct variables that is not trivial or easy to elicit looking directly into data files.
To address this challenge, we propose a workflow for scientific data characterization and variable alignment based on user-defined indicators. The workflow is able to semantically characterize tabular scientific data files using scientific and domain knowledge in knowledge graphs, allowing data to be queried and retrieved by an ontology-driven faceted-search. A representation of indicators that mimics data users' comparisons and visualizations needs is then leveraged by tasks that are able to produce aligned datasets that can be used directly in routine data tools like R or business intelligence (BI) software for easy graphical plotting.
We demonstrate the execution of the workflow in the context of two use cases using data files from the city of Fortaleza, Brazil, where an implementation of this work was used by identified stakeholders. During rounds of evaluation, our approach was verified to ease the process of extracting insights and visualization from scientific data files. To conclude, we discuss the outcomes of this work and their impact on the existing literature, showing ongoing work and potential research directions.
Keywords
Knowledge graphs; scientific data; data analysis; variable alignment; indicators / Dados científicos são gerados e adquiridos em grandes volumes em apoio a estudos em diversas áreas do conhecimento. Processos de preparação de dados comumente usados fazem uso desses arquivos de dados científicos com a finalidade de identificar relacionamentos implícitos entre variáveis de tal forma que eles possam ser reorganizados de forma alinhada, i.e., reescritos como uma única linha em um arquivo tabular seguindo um critério de alinhamento. Esse critério tem o papel de um relacionamento entre variáveis diversas que não é trivial ou fácil de se extrair verificando diretamente nos arquivos de dados.
Para enfrentar esse desafio, propomos um fluxo de trabalho para a caracterização de dados científicos e alinhamento de variáveis baseado na definição de indicadores por usuários dos dados. O fluxo de trabalho tem a capacidade de caracterizar semanticamente arquivos tabulares contendo dados científicos utilizando conhecimento científico e de domínio presente em grafos de conhecimento, permitindo que os dados sejam consultados e recuperados através de uma busca facetada guiada por ontologias. Uma representação de indicadores que reproduz as necessidades de comparações e visualizações de variáveis de usuários dos dados é utilizada para se produzir conjunto de dados alinhados que podem ser utilizados diretamente em ferramentas de dados existentes, como R ou soluções de business intelligence (BI) para plotagem gráfica de modo fácil.
Nós demonstramos a execução do fluxo de trabalho no contexto de dois casos de uso utilizando arquivos de dados da cidade de Fortaleza, Brasil, onde uma implementação desse trabalho foi utilizada por partes interessadas. Durante rodadas de avaliação, nossa proposta foi verificada como facilitadora do processo de extração de visões gerais, percepções e visualizações a partir de arquivos de dados científicos. Em conclusão, nós discutimos os resultados desse trabalho e seu impacto na literatura existente, mostrando trabalhos em andamento e potenciais direções de pesquisa.
Palavras-chave
Grafos de conhecimento; dados científios; análise de dados; alinhamento de variáveis; indicadores
Identifer | oai:union.ndltd.org:IBICT/oai:dspace.unifor.br:tede/107852 |
Date | 30 August 2018 |
Creators | Santos, Henrique Oliveira |
Contributors | Furtado, João José Vasco Peixoto, Pinheiro, Paulo, Farias, Pedro Porfírio Muniz, Furtado, João José Vasco Peixoto, Pinheiro, Paulo, Vidal, Vania Maria Ponte, Pinheiro, Vladia Celia Monteiro |
Publisher | Universidade de Fortaleza, Doutorado Em Informática Aplicada, UNIFOR, Brasil, Centro de Ciências Tecnológicas |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR, instname:Universidade de Fortaleza, instacron:UNIFOR |
Rights | info:eu-repo/semantics/openAccess |
Relation | 1028774923510350190, 500, 500, -7645770940771915222 |
Page generated in 0.0024 seconds