Return to search

A causal model to explain data reuse in science: a study in health disciplines

[EN] Investments in data infrastructures, data management, data repositories, and Open Data sharing policies and recommendations are viewed as increasingly important for scientific knowledge production. One of the underlying assumptions justifying these investments is that the more available Open Data becomes, then the greater the possibilities for creating new knowledge that can advance both science and human wellbeing. Yet efforts and investments in Open Data and other ways of data sharing only have value if data are actually reused. Recent scholarly efforts have brought forth some of the challenges and facilitators related to the reuse of data, in order to inform current and future policies and investments. However, despite these efforts, we still do not know why and how some researchers are successful in reusing data, despite the challenges they face, and why some researchers abandon the process of reusing data when facing such challenges. This dissertation aims to fill this gap by focusing on a causal explanation of the data reuse process, which it understands as being nested in broader patterns of researchers' motivations, scientific goals and decision-making strategies.

The dissertation is comprised of three main elements. First, it proposes a heuristic model of the scientific actor, the bounded individual horizon (BIH) model, which understands that, on the one hand, researchers' work and careers are structured by their motivation to produce scientific contributions and rewards systems that prioritizes certain types of contributions. On the other hand, researchers' struggles to achieve their objective of creating new findings that accrue recognition and rewards occur within a frame of limited information and resources, conditioned by multiple institutional, social, and other factors. Second, the study proposes a mechanistic causal theoretical explanation that enables us to understand the data reuse process and its effects (outcomes). The data-reuse mechanism as it is called, enables us to understand how the satisficing behavior that characterizes scientific decision-making applies to the specific conditions and processes of data reuse. Third, a set of ten empirical case studies of data reuse in health research were conducted and are reported in the dissertation. These cases are analyzed and interpreted using the complementary theoretical lenses of the bounded individual horizon and the data-reuse mechanism approaches.

The main findings explain that there is an apparent association between the extent and types of efforts required to reuse data, researchers' contextualized motivations, and broader goal-setting and decision-making frames. Access to data is a necessary condition for the reuse of data, yet is not sufficient for the reuse to happen. Characteristics of available data, including the context of their production, the extent of the preparation and stewarding of these data and their potential value in relation to researchers' motivations to make new scientific claims or generate background knowledge are found to be essential elements for understanding why some data reuse processes persist and succeed, while others do not. The thesis concludes that efforts and investments designed to reap the benefits of data reuse should also be expanded to include training researchers in data reuse, including to efficiently recognize opportunities, navigate the challenges of the reuse process, and be aware of and acknowledge the limitations of the use of secondary data. Without such investments, the promises and expectations linked to emerging data infrastructures, data repositories, data management guidelines and open science practices are argued to be far less likely to reach their full potential. / [ES] Las inversiones en infraestructuras de datos, gestión de datos, repositorios de datos y políticas y
recomendaciones de intercambio de Datos Abiertos (Open Data) se consideran cada vez más
importantes para la producción del conocimiento científico. Una de las razones que justifica estas
inversiones es que cuanto más Datos Abiertos haya, mayores serán las posibilidades de crear nuevo
conocimiento que pueda hacer avanzar tanto la ciencia como el bienestar humano. Sin embargo, los
esfuerzos y la inversión en Datos Abiertos y otras formas de compartirlos sólo tienen valor si se
reutilizan realmente. Recientes trabajos académicos han puesto de manifiesto algunos de los retos y
factores facilitadores relacionados con la reutilización de los datos, a fin de asesorar las políticas e
inversiones actuales y futuras. Sin embargo, a pesar de esos esfuerzos, todavía desconocemos por qué
y cómo algunos/as investigadores/as logran reutilizar los datos, a pesar de los retos a los que enfrentan,
y por qué otros/as investigadores/as abandonan el proceso de reutilización de los datos. La presente
tesis tiene por objeto llenar este vacío centrándose en una explicación causal del proceso de
reutilización de los datos, que se entiende está inmersa en pautas de conducta más amplias que se
relacionan con las motivaciones, los objetivos científicos y las estrategias de toma de decisiones de
los/as investigadores/as.
Este estudio consta de tres elementos principales. En primer lugar, propone un modelo heurístico del
actor científico, el modelo del horizonte individual delimitado (BIH por su nombre en inglés, bounded
individual horizon). En él se entiende que, por una parte, el trabajo y la carrera de los/as
investigadores/as se estructuran en función de su motivación para producir contribuciones científicas
y de los sistemas de recompensa que dan prioridad a determinados tipos de contribuciones. Por otra
parte, los esfuerzos de los/as investigadores/as para lograr su objetivo de crear nuevos hallazgos que
acumulen reconocimiento y recompensas se producen en un marco de información y recursos
limitados, condicionados por múltiples factores institucionales, sociales y de otra índole. En segundo
lugar, esta tesis propone una explicación teórica causal mecanicista que permite comprender el proceso
de reutilización de los datos y sus efectos (resultados). El mecanismo de reutilización de datos (datareuse mechanism), como se denomina, nos permite comprender cómo la toma de decisiones científicas
está caracterizada por una conducta que tiende a satisfacer esos objetivos en unas condiciones y procesos específicos de reutilización de datos. En tercer lugar, este estudio incluye los resultados del
estudio empírico de diez estudios de casos de reutilización de datos en ciencias de la salud. Estos casos
se han analizado e interpretado utilizando el modelo teórico del horizonte individual delimitado y los
enfoques del mecanismo de reutilización de datos.
Los resultados principales explican que existe una aparente asociación entre el alcance el alcance y
tipo de esfuerzo requerido para reutilizar datos, las motivaciones contextualizadas de los/as
investigadores/as y marcos más amplios de fijación de objetivos y toma de decisiones. El acceso a los
datos es una condición necesaria para su reutilización, pero no es suficiente para que ésta se produzca.
Para comprender por qué algunos procesos de reutilización de datos persisten y tienen éxito, mientras
que otros no,son elementos esenciales: las características de los datos disponibles, incluido el contexto
de su producción; el grado de preparación y administración de esos datos; y su potencial valor en
relación con las motivaciones de los investigadores para hacer nuevas afirmaciones científicas o
generar conocimientos de base. Este estudio concluye que los esfuerzos e inversiones destinados a
aprovechar los beneficios de la reutilización de los datos también deberían ampliarse para incluir la
capacitación de los/as investigadores/as en materia de reutilización de datos. En particular, debe
insistirse en la capacidad para reconocer eficientemente las oportunidades, sortear los problemas del
proceso de reutilización y ser conscientes y reconocer las limitaciones de la utilización de datos
secundarios. Sin estas inversiones, las promesas y expectativas vinculadas a las emergentes
infraestructuras de datos, los repositorios de datos, las directrices de gestión de datos y las prácticas
científicas abiertas tienen muchas menos probabilidades de alcanzar su pleno potencial. / [CA] Les inversions en infraestructures de dades, gestió de dades, repositoris de dades i polítiques i
recomanacions d'intercanvi de Dades Obertes (Open Data) es consideren cada vegada més importants
per a la producció del coneixement científic. Un dels supòsits subjacents que justifiquen aquestes
inversions és que com més disponibles siguen les Dades Obertes, majors seran les possibilitats de crear
nou coneixement que pugui fer avançar tant la ciència com el benestar humà. No obstant això, els
esforços i les inversions en les Dades Obertes i altres maneres de compartir dades només tenen valor
si les dades es reutilitzen realment. Recents investigacions acadèmics han posat de manifest alguns
dels reptes i dels factors facilitadors relacionats amb la reutilització de les dades, a fi d'informar les
polítiques i inversions actuals i futures. No obstant això, encara desconeixem per què i com alguns/es
investigador(e)s aconsegueixen reutilitzar les dades, malgrat els reptes als quals s’enfronten, i per què
altres investigador(e)s abandonen el procés de reutilització de les dades quan s'enfronten a aquests
reptes. La present tesi té com a objectiu omplir aquest buit centrant-se en una explicació causal del
procés de reutilització de dades, que s'entén que està associada amb pautes més àmplies derivades de
les motivacions, els objectius científics i les estratègies de presa de decisions d’els/les investigador(e)s.
La tesi consta de tres elements principals. En primer lloc, proposa un model heurístic de l'actor
científic, el model de l'horitzó individual delimitat (BIH pel nom anglès, bounded individual horizon),
que entén que, d'una banda, el treball i la carrera d’els/les investigador(e)s s'estructuren en funció de
la seua motivació per a produir contribucions científiques i dels sistemes de recompensa que prioritzen
determinats tipus de contribucions. D'altra banda, els esforços d’els/les investigador(e)s per aconseguir
el seu objectiu d’obtenir nous resultats que acumulin reconeixement i recompenses es produeixen en
un marc d'informació i recursos limitats, condicionats per múltiples factors institucionals, socials i
d'altra índole. En segon lloc, aquesta tesi proposa una explicació teòrica causal mecanicista que permet
comprendre el procés de reutilització de les dades i els seus efectes (resultats). El mecanisme de
reutilització de dades (data-reuse mechanism), com es denomina, ens permet comprendre com el
comportament satisfactori que caracteritza la presa de decisions científiques s'aplica a les condicions
i processos específics de reutilització de dades. En tercer lloc, aquesta tesi inclou l'estudi empíric d'un conjunt de deu estudis de casos de reutilització de dades en ciències de la salut, així com també els
resultats d’aquest estudi.. Aquests casos s'han analitzat i interpretat utilitzant les lents teòriques
complementàries de l'horitzó individual delimitat i els enfocaments del mecanisme de reutilització de
dades.
Les principals conclusions expliquen que existeix una aparent associació entre l'abast i els tipus
d'esforços necessaris per a reutilitzar dades, les motivacions contextualitzades d’els/les
investigador(e)s i els marcs més amplis de fixació d'objectius i presa de decisions. L'accés a les dades
és una condició necessària per a la seua reutilització, però no és suficient perquè aquesta es produeixi.
Es considera que les característiques de les dades disponibles, inclòs el context de la seua producció,
el grau de preparació i administració d'aquestes dades i el seu potencial valor en relació amb les
motivacions d’els/les investigador(e)s per a fer noves afirmacions científiques o generar coneixements
de base, són elements essencials per a comprendre per què alguns processos de reutilització de dades
persisteixen i tenen èxit, mentre que uns altres no. Aquest estudi conclou que els esforços i inversions
destinats a aprofitar els beneficis de la reutilització de dades també haurien d'ampliar-se per a incloure
la capacitació d’els/les investigador(e)s en matèria de reutilització de dades, en particular per a
reconèixer eficientment les oportunitats, superar els problemes del procés de reutilització i ser
conscients i reconèixer les limitacions de la reutilització de dades secundàries. Sense aquests esforços
i inversions, les promeses i expectatives vinculades a les infraestructures, repositoris i directrius de
gestió de dades i les pràctiques científiques obertes tenen moltes menys probabilitats d'aconseguir el
seu ple potencial. / Aleixos Borrás, MI. (2020). A causal model to explain data reuse in science: a study in health disciplines [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/153164

Identiferoai:union.ndltd.org:upv.es/oai:riunet.upv.es:10251/153164
Date26 October 2020
CreatorsAleixos Borrás, María Inmaculada
ContributorsDeste Cukierman, Pablo, Peset Mancebo, María Fernanda, Woolley, Richard Derle, Universitat Politècnica de València. Departamento de Comunicación Audiovisual, Documentación e Historia del Arte - Departament de Comunicació Audiovisual, Documentació i Història de l'Art
PublisherUniversitat Politècnica de València
Source SetsUniversitat Politècnica de València
LanguageEnglish
Detected LanguageSpanish
Typeinfo:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/acceptedVersion
Rightshttp://rightsstatements.org/vocab/InC/1.0/, info:eu-repo/semantics/openAccess

Page generated in 0.0035 seconds