Spelling suggestions: "subject:"data reuse"" "subject:"mata reuse""
11 |
Enjeux et place des data sciences dans le champ de la réutilisation secondaire des données massives cliniques : une approche basée sur des cas d’usage / Issues and place of the data sciences for reusing clinical big data : a case-based studyBouzillé, Guillaume 21 June 2019 (has links)
La dématérialisation des données de santé a permis depuis plusieurs années de constituer un véritable gisement de données provenant de tous les domaines de la santé. Ces données ont pour caractéristiques d’être très hétérogènes et d’être produites à différentes échelles et dans différents domaines. Leur réutilisation dans le cadre de la recherche clinique, de la santé publique ou encore de la prise en charge des patients implique de développer des approches adaptées reposant sur les méthodes issues de la science des données. L’objectif de cette thèse est d’évaluer au travers de trois cas d’usage, quels sont les enjeux actuels ainsi que la place des data sciences pour l’exploitation des données massives en santé. La démarche utilisée pour répondre à cet objectif consiste dans une première partie à exposer les caractéristiques des données massives en santé et les aspects techniques liés à leur réutilisation. La seconde partie expose les aspects organisationnels permettant l’exploitation et le partage des données massives en santé. La troisième partie décrit les grandes approches méthodologiques en science des données appliquées actuellement au domaine de la santé. Enfin, la quatrième partie illustre au travers de trois exemples l’apport de ces méthodes dans les champs suivant : la surveillance syndromique, la pharmacovigilance et la recherche clinique. Nous discutons enfin les limites et enjeux de la science des données dans le cadre de la réutilisation des données massives en santé. / The dematerialization of health data, which started several years ago, now generates na huge amount of data produced by all actors of health. These data have the characteristics of being very heterogeneous and of being produced at different scales and in different domains. Their reuse in the context of clinical research, public health or patient care involves developing appropriate approaches based on methods from data science. The aim of this thesis is to evaluate, through three use cases, what are the current issues as well as the place of data sciences regarding the reuse of massive health data. To meet this objective, the first section exposes the characteristics of health big data and the technical aspects related to their reuse. The second section presents the organizational aspects for the exploitation and sharing of health big data. The third section describes the main methodological approaches in data sciences currently applied in the field of health. Finally, the fourth section illustrates, through three use cases, the contribution of these methods in the following fields: syndromic surveillance, pharmacovigilance and clinical research. Finally, we discuss the limits and challenges of data science in the context of health big data.
|
12 |
Looking for data / Information seeking behaviour of survey data usersFriedrich, Tanja 30 November 2020 (has links)
Die Informationsverhaltensforschung liefert zahlreiche Erkenntnisse darüber, wie Menschen Informationen suchen, abrufen und nutzen. Wir verfügen über Forschungsergebnisse zu Informationsverhaltensmustern in einem breiten Spektrum von Kontexten und Situationen, aber wir wissen nicht genug über die Informationsbedürfnisse und Ziele von Forschenden hinsichtlich der Nutzung von Forschungsdaten. Die Informationsverhaltensforschung gibt insbesondere Aufschluss über das literaturbezogene Informationsverhalten. Die vorliegende Studie basiert auf der Annahme, dass diese Erkenntnisse nicht ohne weiteres auf datenbezogenes Informationsverhalten übertragen werden können. Um diese Annahme zu untersuchen, wurde eine Studie zum Informationssuchverhalten von Datennutzenden durchgeführt.
Übergeordnetes Ziel der Studie war es, Erkenntnisse über das Informationsverhalten der Nutzenden eines bestimmten Retrievalsystems für sozialwissenschaftliche Daten zu erlangen, um die Entwicklung von Forschungsdateninfrastrukturen zu unterstützen, die das Data Sharing erleichtern sollen. Das empirische Design dieser Studie folgt einem Mixed-Methods-Ansatz. Dieser umfasst eine qualitative Studie in Form von Experteninterviews und – darauf aufbauend – eine quantitative Studie in Form einer Online-Befragung von Sekundärnutzenden von Daten aus Bevölkerungs- und Meinungsumfragen (Umfragedaten).
Im Kern hat die Untersuchung ergeben, dass die Einbindung in die Forschungscommunity bei der Datensuche eine zentrale Rolle spielt. Die Analysen zeigen, dass Communities eine wichtige Determinante für das Informationssuchverhalten sind. Die Einbindung in die Community hat das Potential, Probleme oder Barrieren bei der Datensuche zu reduzieren.
Diese Studie trägt zur Theorieentwicklung in der Informationsverhaltensforschung durch die Modellierung des Datensuchverhaltens bei. In praktischer Hinsicht gibt die Studie Empfehlungen für das Design von Dateninfrastrukturen, basierend auf empirischen Anforderungsanalysen. / From information behaviour research we have a rich knowledge of how people are looking for, retrieving, and using information. We have scientific evidence for information behaviour patterns in a wide scope of contexts and situations, but we don’t know enough about researchers’ information needs and goals regarding the usage of research data. Having emerged from library user studies, information behaviour research especially provides insight into literature-related information behaviour. This thesis is based on the assumption that these insights cannot be easily transferred to data-related information behaviour. In order to explore this assumption, a study of secondary data users’ information-seeking behaviour was conducted. The study was designed and evaluated in comparison to existing theories and models of information-seeking behaviour.
The overall goal of the study was to create evidence of actual information practices of users of one particular retrieval system for social science data in order to inform the development of research data infrastructures that facilitate data sharing. The empirical design of this study follows a mixed methods approach. This includes a qualitative study in the form of expert interviews and – building on the results found therein – a quantitative web survey of secondary survey data users.
The core result of this study is that community involvement plays a pivotal role in survey data seeking. The analyses show that survey data communities are an important determinant in survey data users' information seeking behaviour and that community involvement facilitates data seeking and has the capacity of reducing problems or barriers. Community involvement increases with growing experience, seniority, and data literacy.
This study advances information behaviour research by modelling the specifics of data seeking behaviour. In practical respect, the study specifies data-user oriented requirements for systems design.
|
13 |
A causal model to explain data reuse in science: a study in health disciplinesAleixos Borrás, María Inmaculada 26 October 2020 (has links)
[EN] Investments in data infrastructures, data management, data repositories, and Open Data sharing policies and recommendations are viewed as increasingly important for scientific knowledge production. One of the underlying assumptions justifying these investments is that the more available Open Data becomes, then the greater the possibilities for creating new knowledge that can advance both science and human wellbeing. Yet efforts and investments in Open Data and other ways of data sharing only have value if data are actually reused. Recent scholarly efforts have brought forth some of the challenges and facilitators related to the reuse of data, in order to inform current and future policies and investments. However, despite these efforts, we still do not know why and how some researchers are successful in reusing data, despite the challenges they face, and why some researchers abandon the process of reusing data when facing such challenges. This dissertation aims to fill this gap by focusing on a causal explanation of the data reuse process, which it understands as being nested in broader patterns of researchers' motivations, scientific goals and decision-making strategies.
The dissertation is comprised of three main elements. First, it proposes a heuristic model of the scientific actor, the bounded individual horizon (BIH) model, which understands that, on the one hand, researchers' work and careers are structured by their motivation to produce scientific contributions and rewards systems that prioritizes certain types of contributions. On the other hand, researchers' struggles to achieve their objective of creating new findings that accrue recognition and rewards occur within a frame of limited information and resources, conditioned by multiple institutional, social, and other factors. Second, the study proposes a mechanistic causal theoretical explanation that enables us to understand the data reuse process and its effects (outcomes). The data-reuse mechanism as it is called, enables us to understand how the satisficing behavior that characterizes scientific decision-making applies to the specific conditions and processes of data reuse. Third, a set of ten empirical case studies of data reuse in health research were conducted and are reported in the dissertation. These cases are analyzed and interpreted using the complementary theoretical lenses of the bounded individual horizon and the data-reuse mechanism approaches.
The main findings explain that there is an apparent association between the extent and types of efforts required to reuse data, researchers' contextualized motivations, and broader goal-setting and decision-making frames. Access to data is a necessary condition for the reuse of data, yet is not sufficient for the reuse to happen. Characteristics of available data, including the context of their production, the extent of the preparation and stewarding of these data and their potential value in relation to researchers' motivations to make new scientific claims or generate background knowledge are found to be essential elements for understanding why some data reuse processes persist and succeed, while others do not. The thesis concludes that efforts and investments designed to reap the benefits of data reuse should also be expanded to include training researchers in data reuse, including to efficiently recognize opportunities, navigate the challenges of the reuse process, and be aware of and acknowledge the limitations of the use of secondary data. Without such investments, the promises and expectations linked to emerging data infrastructures, data repositories, data management guidelines and open science practices are argued to be far less likely to reach their full potential. / [ES] Las inversiones en infraestructuras de datos, gestión de datos, repositorios de datos y políticas y
recomendaciones de intercambio de Datos Abiertos (Open Data) se consideran cada vez más
importantes para la producción del conocimiento científico. Una de las razones que justifica estas
inversiones es que cuanto más Datos Abiertos haya, mayores serán las posibilidades de crear nuevo
conocimiento que pueda hacer avanzar tanto la ciencia como el bienestar humano. Sin embargo, los
esfuerzos y la inversión en Datos Abiertos y otras formas de compartirlos sólo tienen valor si se
reutilizan realmente. Recientes trabajos académicos han puesto de manifiesto algunos de los retos y
factores facilitadores relacionados con la reutilización de los datos, a fin de asesorar las políticas e
inversiones actuales y futuras. Sin embargo, a pesar de esos esfuerzos, todavía desconocemos por qué
y cómo algunos/as investigadores/as logran reutilizar los datos, a pesar de los retos a los que enfrentan,
y por qué otros/as investigadores/as abandonan el proceso de reutilización de los datos. La presente
tesis tiene por objeto llenar este vacío centrándose en una explicación causal del proceso de
reutilización de los datos, que se entiende está inmersa en pautas de conducta más amplias que se
relacionan con las motivaciones, los objetivos científicos y las estrategias de toma de decisiones de
los/as investigadores/as.
Este estudio consta de tres elementos principales. En primer lugar, propone un modelo heurístico del
actor científico, el modelo del horizonte individual delimitado (BIH por su nombre en inglés, bounded
individual horizon). En él se entiende que, por una parte, el trabajo y la carrera de los/as
investigadores/as se estructuran en función de su motivación para producir contribuciones científicas
y de los sistemas de recompensa que dan prioridad a determinados tipos de contribuciones. Por otra
parte, los esfuerzos de los/as investigadores/as para lograr su objetivo de crear nuevos hallazgos que
acumulen reconocimiento y recompensas se producen en un marco de información y recursos
limitados, condicionados por múltiples factores institucionales, sociales y de otra índole. En segundo
lugar, esta tesis propone una explicación teórica causal mecanicista que permite comprender el proceso
de reutilización de los datos y sus efectos (resultados). El mecanismo de reutilización de datos (datareuse mechanism), como se denomina, nos permite comprender cómo la toma de decisiones científicas
está caracterizada por una conducta que tiende a satisfacer esos objetivos en unas condiciones y procesos específicos de reutilización de datos. En tercer lugar, este estudio incluye los resultados del
estudio empírico de diez estudios de casos de reutilización de datos en ciencias de la salud. Estos casos
se han analizado e interpretado utilizando el modelo teórico del horizonte individual delimitado y los
enfoques del mecanismo de reutilización de datos.
Los resultados principales explican que existe una aparente asociación entre el alcance el alcance y
tipo de esfuerzo requerido para reutilizar datos, las motivaciones contextualizadas de los/as
investigadores/as y marcos más amplios de fijación de objetivos y toma de decisiones. El acceso a los
datos es una condición necesaria para su reutilización, pero no es suficiente para que ésta se produzca.
Para comprender por qué algunos procesos de reutilización de datos persisten y tienen éxito, mientras
que otros no,son elementos esenciales: las características de los datos disponibles, incluido el contexto
de su producción; el grado de preparación y administración de esos datos; y su potencial valor en
relación con las motivaciones de los investigadores para hacer nuevas afirmaciones científicas o
generar conocimientos de base. Este estudio concluye que los esfuerzos e inversiones destinados a
aprovechar los beneficios de la reutilización de los datos también deberían ampliarse para incluir la
capacitación de los/as investigadores/as en materia de reutilización de datos. En particular, debe
insistirse en la capacidad para reconocer eficientemente las oportunidades, sortear los problemas del
proceso de reutilización y ser conscientes y reconocer las limitaciones de la utilización de datos
secundarios. Sin estas inversiones, las promesas y expectativas vinculadas a las emergentes
infraestructuras de datos, los repositorios de datos, las directrices de gestión de datos y las prácticas
científicas abiertas tienen muchas menos probabilidades de alcanzar su pleno potencial. / [CA] Les inversions en infraestructures de dades, gestió de dades, repositoris de dades i polítiques i
recomanacions d'intercanvi de Dades Obertes (Open Data) es consideren cada vegada més importants
per a la producció del coneixement científic. Un dels supòsits subjacents que justifiquen aquestes
inversions és que com més disponibles siguen les Dades Obertes, majors seran les possibilitats de crear
nou coneixement que pugui fer avançar tant la ciència com el benestar humà. No obstant això, els
esforços i les inversions en les Dades Obertes i altres maneres de compartir dades només tenen valor
si les dades es reutilitzen realment. Recents investigacions acadèmics han posat de manifest alguns
dels reptes i dels factors facilitadors relacionats amb la reutilització de les dades, a fi d'informar les
polítiques i inversions actuals i futures. No obstant això, encara desconeixem per què i com alguns/es
investigador(e)s aconsegueixen reutilitzar les dades, malgrat els reptes als quals s’enfronten, i per què
altres investigador(e)s abandonen el procés de reutilització de les dades quan s'enfronten a aquests
reptes. La present tesi té com a objectiu omplir aquest buit centrant-se en una explicació causal del
procés de reutilització de dades, que s'entén que està associada amb pautes més àmplies derivades de
les motivacions, els objectius científics i les estratègies de presa de decisions d’els/les investigador(e)s.
La tesi consta de tres elements principals. En primer lloc, proposa un model heurístic de l'actor
científic, el model de l'horitzó individual delimitat (BIH pel nom anglès, bounded individual horizon),
que entén que, d'una banda, el treball i la carrera d’els/les investigador(e)s s'estructuren en funció de
la seua motivació per a produir contribucions científiques i dels sistemes de recompensa que prioritzen
determinats tipus de contribucions. D'altra banda, els esforços d’els/les investigador(e)s per aconseguir
el seu objectiu d’obtenir nous resultats que acumulin reconeixement i recompenses es produeixen en
un marc d'informació i recursos limitats, condicionats per múltiples factors institucionals, socials i
d'altra índole. En segon lloc, aquesta tesi proposa una explicació teòrica causal mecanicista que permet
comprendre el procés de reutilització de les dades i els seus efectes (resultats). El mecanisme de
reutilització de dades (data-reuse mechanism), com es denomina, ens permet comprendre com el
comportament satisfactori que caracteritza la presa de decisions científiques s'aplica a les condicions
i processos específics de reutilització de dades. En tercer lloc, aquesta tesi inclou l'estudi empíric d'un conjunt de deu estudis de casos de reutilització de dades en ciències de la salut, així com també els
resultats d’aquest estudi.. Aquests casos s'han analitzat i interpretat utilitzant les lents teòriques
complementàries de l'horitzó individual delimitat i els enfocaments del mecanisme de reutilització de
dades.
Les principals conclusions expliquen que existeix una aparent associació entre l'abast i els tipus
d'esforços necessaris per a reutilitzar dades, les motivacions contextualitzades d’els/les
investigador(e)s i els marcs més amplis de fixació d'objectius i presa de decisions. L'accés a les dades
és una condició necessària per a la seua reutilització, però no és suficient perquè aquesta es produeixi.
Es considera que les característiques de les dades disponibles, inclòs el context de la seua producció,
el grau de preparació i administració d'aquestes dades i el seu potencial valor en relació amb les
motivacions d’els/les investigador(e)s per a fer noves afirmacions científiques o generar coneixements
de base, són elements essencials per a comprendre per què alguns processos de reutilització de dades
persisteixen i tenen èxit, mentre que uns altres no. Aquest estudi conclou que els esforços i inversions
destinats a aprofitar els beneficis de la reutilització de dades també haurien d'ampliar-se per a incloure
la capacitació d’els/les investigador(e)s en matèria de reutilització de dades, en particular per a
reconèixer eficientment les oportunitats, superar els problemes del procés de reutilització i ser
conscients i reconèixer les limitacions de la reutilització de dades secundàries. Sense aquests esforços
i inversions, les promeses i expectatives vinculades a les infraestructures, repositoris i directrius de
gestió de dades i les pràctiques científiques obertes tenen moltes menys probabilitats d'aconseguir el
seu ple potencial. / Aleixos Borrás, MI. (2020). A causal model to explain data reuse in science: a study in health disciplines [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/153164
|
14 |
Data curation for qualitative data reuse and big social research / Connecting communities of practiceMannheimer, Sara 12 September 2022 (has links)
In den letzten Jahren haben Innovationen bei Datenquellen und Methoden für die sozialwissenschaftliche Forschung zugenommen. Diese Forschungsarbeit zielt darauf ab, die Auswirkungen dieser Innovationen auf drei Praxisgemeinschaften besser zu verstehen:
qualitativ Forschende, Big Social Data Forschende und Datenkurator*innen. Folgenden Forschungsfragen werden behandelt. RQ1: Wie unterscheidet sich die Kuratierung von Big Social Data und qualitativen Daten? RQ2: Welche Auswirkungen haben diese Ähnlichkeiten und Unterschiede auf die Kuratierung von Big Social Data und qualitativen Daten und was können wir aus der Kombination dieser beiden Communities lernen? Ich beantwortete diese Fragen durch eine Literaturrecherche, in der ich Gemeinsamkeiten zwischen qualitativer Datennachnutzung und Big Social Data identifizierte. Dann führte ich semi-strukturierte Interviews mit den drei Praxisgemeinschaften durch. Die Analyse identifizierte sechs Schlüsselthemen für die qualitative Datennachnutzung und Big Social Data: Kontext, Datenqualität und Vertrauenswürdigkeit, Datenvergleichbarkeit, informierte Einwilligung, Datenschutz und Vertraulichkeit sowie geistiges Eigentum und Dateneigentum. Ich habe außerdem fünf weitere Themen identifiziert: Domänenunterschiede, Strategien für eine verantwortungsvolle Praxis, Fragen der Datenpflege, Menschen oder Inhalte als Untersuchungsobjekte sowie unterschiedliche Schwerpunkte und Ansätze. Die Verbindung dieser drei Praxisgemeinschaften kann ein breiteres Verständnis der Schlüsselfragen unterstützen und zu verantwortungsbewussteren Forschungspraktiken führen. Datenkurator*innen verfügen über die Fähigkeiten und Perspektiven, um zwischen den Praxisgemeinschaften zu übersetzen und eine verantwortungsvolle qualitative Nachnutzung von Daten und Big Social Data zu unterstützen. / Recent years have seen the rise of innovations in data sources and methods for social science research. This research aims to better understand the impact of these innovations on three communities of practice: qualitative researchers, big social researchers, and data curators. I address the following research questions. RQ1: How is big social data curation similar to and different from qualitative data curation? RQ1a: How are epistemological, ethical, and legal issues different or similar for qualitative data reuse and big social research? RQ1b: How can data curation practices support and resolve some of these epistemological and ethical issues? RQ2: What are the implications of these similarities and differences for big social data curation and qualitative data curation, and what can we learn from combining these two conversations? I answered these questions through a literature review, in which I identified issues in common between qualitative data reuse and big social research. Then I conducted semi-structured interviews with the three communities of practice. The research identified six key issues for qualitative data reuse and big social research: context, data quality and trustworthiness, data comparability, informed consent, privacy and confidentiality, and intellectual property and data ownership. I also identified five additional themes: domain differences, strategies for responsible practice, data curation issues, human subjects vs. content, and different focuses and approaches. Connecting these three communities of practice can support a broader understanding of the key issues and lead to more responsible research practices. Data curators have the skills and perspectives to translate between communities of practice and provide guidance for responsible qualitative data reuse and big social data.
|
15 |
Diseño, construcción y evaluación de repositorios estandarizados con calidad de datos asegurada para la monitorización de la atención a la alimentación infantilGarcía de León Chocano, Ricardo 20 October 2022 (has links)
[ES] El establecimiento de la Historia Clínica Electrónica (HCE) como fuente de conocimiento en el ámbito clínico es una cuestión clave para las organizaciones sanitarias para el desarrollo de la investigación, docencia y la mejora de la calidad asistencial. El actual despliegue de los sistemas de información sanitarios supone que los datos de HCE sean una excelente fuente de datos candidata con la que generar repositorios para estos propósitos, debido a su cobertura poblacional y continuidad en el tiempo.
Para garantizar la validez y fiabilidad de la reutilización de datos de HCE para investigación y monitorización de la asistencia sanitaria, es necesario evaluar y asegurar su calidad de datos. Así como utilizar estándares de información sanitaria para dar soporte a la continuidad asistencial.
Esta tesis tiene como propósito diseñar un proceso de construcción de repositorios, estandarizados y con calidad de datos asegurada, con el que construir un repositorio de datos integrados (IDR) de alimentación infantil a partir de datos multi-fuente de HCE. El objetivo de este IDR es habilitar el re-uso de datos para la monitorización de la atención a la alimentación infantil hasta los dos años, centrado en la lactancia materna como uno de los principales determinantes de la salud materno-infantil.
Para la gestión de la calidad de datos se ha utilizado un marco conceptual basado en dimensiones de calidad de datos para una gestión de calidad de datos total del proceso. Como estándares de información sanitaria se han utilizado UNE-EN-ISO 13940 (Contsys) y UNE-EN-ISO 13606. Para la monitorización se han utilizado los indicadores definidos por la Organización Mundial de la Salud para la evaluación de estrategias internacionales de alimentación infantil como la Iniciativa para la Humanización de la Asistencia al Nacimiento y la Lactancia (IHAN).
El proceso de construcción de repositorios ha estado estrechamente relacionado con la estrategia "Hasta Que Tú Quieras (HQTQ)", desarrollada en el Área de Salud V-Altiplano del Servicio Murciano de Salud para mejorar la calidad de la atención a la alimentación al lactante. Las especificaciones y requerimientos del proceso asistencial de atención a la alimentación del lactante guiaron la definición de los modelos de información.
El proceso de construcción ha sido aplicado sobre real world data multi-fuente proveniente de la HCE del Área V-Altiplano. En concreto del sistema de información hospitalario de su hospital de referencia, Hospital Virgen del Castillo y del sistema de información de Atención Primaria de los 3 centros de salud del área, durante el periodo 2009-2018.
La aplicación de dimensiones de calidad de datos sobre procedimientos de evaluación y aseguramiento de calidad de datos, junto con el uso de conceptos de la norma Constys, han contribuido al diseño del proceso de construcción de repositorios estandarizados con calidad de datos asegurada.
La aplicación de los métodos del proceso de construcción de repositorios sobre los datos de la HCE perinatal del hospital y del seguimiento de alimentación de los centros de atención primaria han contribuido a la creación del IDR, con calidad de datos asegurada y estandarizado según la norma Contsys; así como a la estimación robusta de indicadores de alimentación infantil y la habilitación de un sistema de monitorización poblacional y continuo a partir de datos de HCE.
La experiencia de integración de los repositorios materno-infantiles del Hospital Virgen del Castillo y el Hospital 12 de Octubre de Madrid ha contribuido a la creación de un IDR estandarizado conforme a la norma UNE-EN-ISO 13606 y a una propuesta de arquetipos para integración de repositorios materno-infantiles a nivel nacional.
La información de calidad obtenida del IDR ha contribuido a la obtención del Sello de Buenas de Prácticas del Ministerio de Sanidad, Servicios Sociales e Igualdad y la ampliación a escala del modelo de información perinatal a todo el Servicio Murciano de Salu / [CA] L'establiment de la Història Clínica Electrònica (HCE) com a font de coneiximent a l'àmbit clínic és una qüestió clau per a les organitzacions sanitàries per al desenvolupament de la investigació, docència i la millora de la qualitat assistencial. L'actual desplegament dels sistemes de informació sanitaris suposa que les dades de HCE siguen una excel·lent font de informació amb la qual generar repositoris de dades per a aquests propòsits, a causa de la seua cobertura poblacional i continuïtat en el temps.
Per garantir la validesa i fiabilitat de la reutilització de dades de HCE per a investigació i monitoratge de l'assistència sanitària, és necessari avaluar i assegurar la seua qualitat . Així com utilitzar diferents estàndards d'informació sanitària per donar suport a la continuïtat assistencial.
Aquesta tesi té com a propòsit dissenyar un procés de construcció de repositoris, éstandaritzats i amb qualitat de dades assegurada, amb el qual construir un repositori de dades integrats (IDR) d'alimentació infantil a partir de dades multi-font de HCE. L'objectiu d'aquest IDR és habilitar la reutilització de dades per al monitoratge de l'atenció a l'alimentació infantil fins als dos anys, centrat en la lactància materna com un dels principals determinants de la salut matern-infantil.
Per a la gestió de la qualitat de dades s'ha utilitzat un marc conceptual basat en dimensions de qualitat de dades per a una gestió de qualitat de dades total del procés. Com a estàndards d'informació sanitària s'han utilitzat UNE-EN-ISO 13940 (Contsys) i UNE-EN-ISO 13606. Per al monitoratge s'han empleat els indicadors definits per l'Organització Mundial de la Salut per a l'avaluació d'estratègies internacionals d'alimentació infantil com la Iniciativa per a la Humanització de la Asistencia al Naixement i la Lactància (IHAN).
El procés de construcció de repositoris ha estat estretament relacionat amb l'estratègia "Hasta Que Tú Quieras (HQTQ)" desenvolupada a l'Àrea de Salut V - Altiplano del Servicio Murciano de Salud per a millorar la qualitat de l'atenció a l'alimentació al lactant. Les especificacions i requeriments del procés assistencial d'atenció a l'alimentació del lactant van guiar la definició dels models d'informació.
El procés de construcció ha sigut aplicat sobre real world data multi-font provinent de la HCE de l'Àrea de Salut V-Altiplano del Servicio Murciano de Salud. En concret del sistema d'informació hospitalari del seu hospital de referència, Hospital Virgen del Castillo i del sistema d'informació d'Atenció Primària dels tres centres de salut de l'àrea, durant el període 2009-2018.
L'aplicació de dimensions de qualitat de dades sobre procediments d'avaluació i assegurament de qualitat de dades, juntament amb l'ús de conceptes de la norma Contsys, han contribuït al disseny del procés de construcció de repositoris estandarditzats amb qualitat de dades assegurada.
L'aplicació dels mètodes del procés de construcció de repositoris sobre les dades de la HCE perinatal de l'hospital i del seguiment de l'alimentació infantil d'atenció primària han contribuït a la creació del IDR, amb qualitat de dades assegurada i estandarditzat segons la norma Contsys. Així com a l'estimació robusta d'indicadors d'alimentació infantil i l'habilitació d'un sistema de monitoratge poblacional i continu a partir de dades de HCE.
L'experiència d'integració dels repositoris matern-infantils de l'Hospital Virgen del Castillo i l'Hospital 12 d'Octubre de Madrid ha contribuït a la creació d'un IDR estandarditzat conforme a la norma UNE-EN ISO 13606 i a una proposta d'arquetips per a integració de repositoris matern-infantils a nivell nacional.
La informació de qualitat obtinguda del IDR ha contribuït a l'obtenció del Segell de Bones de Pràctiques del Ministeri de Sanitat, Serveis Socials i Igualtat i al "scaling-up" del model d'informació perinatal a tot el Servei Murcià de Salut. / [EN] The establishment of the Electronic Health Record (EHR) as a source of knowledge in the clinical setting is a key issue for healthcare organizations for the development of research, teaching and the improvement of healthcare quality. The current deployment of health information systems means that EHR data are an excellent candidate data source with which to generate repositories for these purposes, due to their population coverage and continuity over time.
To ensure the validity and reliability of the reuse of EHR data for research and healthcare monitoring, it is necessary to assess and assure its data quality. As well as using health information standards to support continuity of care.
The purpose of this thesis is to design a standardized and DQ assured repository construction process to build an Integrated Data Repository (IDR) for infant feeding from multi-source EHR data. The goal of this IDR is to enable the reuse of data for monitoring infant feeding care up to two years of age, focusing on breastfeeding as one of the main determinants of maternal and child health.
For DQ management, a conceptual framework based on DQ dimensions has been used for a total data quality management of the process. UNE-EN-ISO 13940 (Contsys) and UNE-EN-ISO 13606 have been used as health information standards. The "Indicators for assessing infant and young child feeding practices" (IYCF), defined by the World Health Organization were used for monitoring. This set of indicators is the current reference for the evaluation of international infant feeding strategies such as the Baby Friendly Hospital Initiative (BFHI).
The construction process of repositories has been closely related to the "Hasta Que Tú Quieras (HQTQ)" strategy, developed in the Health Area V-Altiplano of the Servicio Murciano de Salud to improve the quality of care for infant feeding. The specifications and requirements of the infant feeding care process guided the definition of information models.
The construction process has been applied on real world multi-source data from the EHR of the Health Area V-Altiplano. Specifically, from the hospital information system of its reference hospital, Hospital Virgen del Castillo, and from the primary care information system of the 3 health centers of the area, during the period 2009-2018.
The application of DQ dimensions on DQ assessment and assurance procedures, together with the use of concepts of the Contsys standard, have contributed to the design of the process of building standardized and DQ assured repositories.
The application of the methods of the repository construction process on perinatal EHR data from the hospital along with the EHR data from the area's primary care information system for monitoring infant feeding has contributed to the creation of the IDR, with DQ assured and standardized according to the Contsys standard; As well as for the robust estimation of infant feeding indicators and the implementation of a population-based and continuous monitoring system based on EHR data.
The experience of integrating the mother-child repositories of the Virgen del Castillo Hospital and the 12 de Octubre Hospital in Madrid has contributed to the creation of a standardized IDR in accordance with the UNE-EN-ISO 13606 standard and a proposal of archetypes for the integration of mother-child repositories at the national level.
The quality information obtained from the IDR has contributed to obtaining the Seal of Good Practices of the Ministry of Health, Social Services and Equality and to the scaling-up of the perinatal information model to the whole Servicio Murciano de Salud. / García De León Chocano, R. (2022). Diseño, construcción y evaluación de repositorios estandarizados con calidad de datos asegurada para la monitorización de la atención a la alimentación infantil [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/188372
|
16 |
Probabilistic methods for multi-source and temporal biomedical data quality assessmentSáez Silvestre, Carlos 05 April 2016 (has links)
[EN] Nowadays, biomedical research and decision making depend to a great extent on the data stored in information systems. As a consequence, a lack of data quality (DQ) may lead to suboptimal decisions, or hinder the derived research processes and outcomes. This thesis aims to the research and development of methods for assessing two DQ problems of special importance in Big Data and large-scale repositories, based on multi-institutional, cross-border infrastructures, and acquired during long periods of time: the variability of data probability distributions (PDFs) among different data sources-multi-source variability-and the variability of data PDFs over time-temporal variability.
Variability in PDFs may be caused by differences in data acquisition methods, protocols or health care policies; systematic or random errors during data input and management; demographic differences in populations; or even falsified data. To date, these issues have received little attention as DQ problems nor count with adequate assessment methods. The developed methods aim to measure, detect and characterize variability dealing with multi-type, multivariate, multi-modal data, and not affected by large sample sizes. To this end, we defined an Information Theory and Geometry probabilistic framework based on the inference of non-parametric statistical manifolds from the normalized distances of PDFs among data sources and over time. Based on this, a number of contributions have been generated.
For the multi-source variability assessment we have designed two metrics: the Global Probabilistic Deviation, which measures the degree of global variability among the PDFs of multiple sources-equivalent to the standard deviation among PDFs; and the Source Probabilistic Outlyingness, which measures the dissimilarity of the PDF of a single data source to a global latent average. They are based on the construction of a simplex geometrical figure (the maximum-dimensional statistical manifold) using the distances among sources, and complemented by the Multi-Source Variability plot, an exploratory visualization of that simplex which permits detecting grouping patterns among sources.
The temporal variability method provides two main tools: the Information Geometric Temporal plot, an exploratory visualization of the temporal evolution of PDFs based on the projection of the statistical manifold from temporal batches; and the PDF Statistical Process Control, a monitoring and automatic change detection algorithm for PDFs.
The methods have been applied to repositories in real case studies, including the Public Health Mortality and Cancer Registries of the Region of Valencia, Spain; the UCI Heart Disease; the United States NHDS; and Spanish Breast Cancer and an In-Vitro Fertilization datasets. The methods permitted discovering several findings such as partitions of the repositories in probabilistically separated temporal subgroups, punctual temporal anomalies due to anomalous data, and outlying and clustered data sources due to differences in populations or in practices.
A software toolbox including the methods and the automated generation of DQ reports was developed. Finally, we defined the theoretical basis of a biomedical DQ evaluation framework, which have been used in the construction of quality assured infant feeding repositories, in the contextualization of data for their reuse in Clinical Decision Support Systems using an HL7-CDA wrapper; and in an on-line service for the DQ evaluation and rating of biomedical data repositories.
The results of this thesis have been published in eight scientific contributions, including top-ranked journals and conferences. One of the journal publications was selected by the IMIA as one of the best of Health Information Systems in 2013. Additionally, the results have contributed to several research projects, and have leaded the way to the industrialization of the developed methods and approaches for the audit and control of biomedical DQ. / [ES] Actualmente, la investigación biomédica y toma de decisiones dependen en gran medida de los datos almacenados en los sistemas de información. En consecuencia, una falta de calidad de datos (CD) puede dar lugar a decisiones sub-óptimas o dificultar los procesos y resultados de las investigaciones derivadas. Esta tesis tiene como propósito la investigación y desarrollo de métodos para evaluar dos problemas especialmente importantes en repositorios de datos masivos (Big Data), basados en infraestructuras multi-céntricas, adquiridos durante largos periodos de tiempo: la variabilidad de las distribuciones de probabilidad (DPs) de los datos entre diferentes fuentes o sitios-variabilidad multi-fuente-y la variabilidad de las distribuciones de probabilidad de los datos a lo largo del tiempo-variabilidad temporal.
La variabilidad en DPs puede estar causada por diferencias en los métodos de adquisición, protocolos o políticas de atención; errores sistemáticos o aleatorios en la entrada o gestión de datos; diferencias demográficas en poblaciones; o incluso por datos falsificados. Esta tesis aporta métodos para detectar, medir y caracterizar dicha variabilidad, tratando con datos multi-tipo, multivariantes y multi-modales, y sin ser afectados por tamaños muestrales grandes. Para ello, hemos definido un marco de Teoría y Geometría de la Información basado en la inferencia de variedades de Riemann no-paramétricas a partir de distancias normalizadas entre las PDs de varias fuentes de datos o a lo largo del tiempo. En consecuencia, se han aportado las siguientes contribuciones:
Para evaluar la variabilidad multi-fuente se han definido dos métricas: la Global Probabilistic Deviation, la cual mide la variabilidad global entre las PDs de varias fuentes-equivalente a la desviación estándar entre PDs; y la Source Probabilistic Outlyingness, la cual mide la disimilaridad entre la DP de una fuente y un promedio global latente. Éstas se basan en un simplex construido mediante las distancias entre las PDs de las fuentes. En base a éste, se ha definido el Multi-Source Variability plot, visualización que permite detectar patrones de agrupamiento entre fuentes.
El método de variabilidad temporal proporciona dos herramientas: el Information Geometric Temporal plot, visualización exploratoria de la evolución temporal de las PDs basada en la la variedad estadística de los lotes temporales; y el Control de Procesos Estadístico de PDs, algoritmo para la monitorización y detección automática de cambios en PDs.
Los métodos han sido aplicados a casos de estudio reales, incluyendo: los Registros de Salud Pública de Mortalidad y Cáncer de la Comunidad Valenciana; los repositorios de enfermedades del corazón de UCI y NHDS de los Estados Unidos; y repositorios españoles de Cáncer de Mama y Fecundación In-Vitro. Los métodos detectaron hallazgos como particiones de repositorios en subgrupos probabilísticos temporales, anomalías temporales puntuales, y fuentes de datos agrupadas por diferencias en poblaciones y en prácticas.
Se han desarrollado herramientas software incluyendo los métodos y la generación automática de informes. Finalmente, se ha definido la base teórica de un marco de CD biomédicos, el cual ha sido utilizado en la construcción de repositorios de calidad para la alimentación del lactante, en la contextualización de datos para el reuso en Sistemas de Ayuda a la Decisión Médica usando un wrapper HL7-CDA, y en un servicio on-line para la evaluación y clasificación de la CD de repositorios biomédicos.
Los resultados de esta tesis han sido publicados en ocho contribuciones científicas (revistas indexadas y artículos en congresos), una de ellas seleccionada por la IMIA como una de las mejores publicaciones en Sistemas de Información de Salud en 2013. Los resultados han contribuido en varios proyectos de investigación, y facilitado los primeros pasos hacia la industrialización de las tecnologías / [CA] Actualment, la investigació biomèdica i presa de decisions depenen en gran mesura de les dades emmagatzemades en els sistemes d'informació. En conseqüència, una manca en la qualitat de les dades (QD) pot donar lloc a decisions sub-òptimes o dificultar els processos i resultats de les investigacions derivades. Aquesta tesi té com a propòsit la investigació i desenvolupament de mètodes per avaluar dos problemes especialment importants en repositoris de dades massius (Big Data) basats en infraestructures multi-institucionals o transfrontereres, adquirits durant llargs períodes de temps: la variabilitat de les distribucions de probabilitat (DPs) de les dades entre diferents fonts o llocs-variabilitat multi-font-i la variabilitat de les distribucions de probabilitat de les dades al llarg del temps-variabilitat temporal.
La variabilitat en DPs pot estar causada per diferències en els mètodes d'adquisició, protocols o polítiques d'atenció; errors sistemàtics o aleatoris durant l'entrada o gestió de dades; diferències demogràfiques en les poblacions; o fins i tot per dades falsificades. Aquesta tesi aporta mètodes per detectar, mesurar i caracteritzar aquesta variabilitat, tractant amb dades multi-tipus, multivariants i multi-modals, i no sent afectats per mides mostrals grans. Per a això, hem definit un marc de Teoria i Geometria de la Informació basat en la inferència de varietats de Riemann no-paramètriques a partir de distàncies normalitzades entre les DPs de diverses fonts de dades o al llarg del temps. En conseqüència s'han aportat les següents contribucions:
Per avaluar la variabilitat multi-font s'han definit dos mètriques: la Global Probabilistic Deviation, la qual mesura la variabilitat global entre les DPs de les diferents fonts-equivalent a la desviació estàndard entre DPs; i la Source Probabilistic Outlyingness, la qual mesura la dissimilaritat entre la DP d'una font de dades donada i una mitjana global latent. Aquestes estan basades en la construcció d'un simplex mitjançant les distàncies en les DPs entre fonts. Basat en aquest, s'ha definit el Multi-Source Variability plot, una visualització que permet detectar patrons d'agrupament entre fonts.
El mètode de variabilitat temporal proporciona dues eines: l'Information Geometric Temporal plot, visualització exploratòria de l'evolució temporal de les distribucions de dades basada en la varietat estadística dels lots temporals; i el Statistical Process Control de DPs, algoritme per al monitoratge i detecció automàtica de canvis en les DPs de dades.
Els mètodes han estat aplicats en repositoris de casos d'estudi reals, incloent: els Registres de Salut Pública de Mortalitat i Càncer de la Comunitat Valenciana; els repositoris de malalties del cor de UCI i NHDS dels Estats Units; i repositoris espanyols de Càncer de Mama i Fecundació In-Vitro. Els mètodes han detectat troballes com particions dels repositoris en subgrups probabilístics temporals, anomalies temporals puntuals, i fonts de dades anòmales i agrupades a causa de diferències en poblacions i en les pràctiques.
S'han desenvolupat eines programari incloent els mètodes i la generació automàtica d'informes. Finalment, s'ha definit la base teòrica d'un marc de QD biomèdiques, el qual ha estat utilitzat en la construcció de repositoris de qualitat per l'alimentació del lactant, la contextualització de dades per a la reutilització en Sistemes d'Ajuda a la Decisió Mèdica usant un wrapper HL7-CDA, i en un servei on-line per a l'avaluació i classificació de la QD de repositoris biomèdics.
Els resultats d'aquesta tesi han estat publicats en vuit contribucions científiques (revistes indexades i en articles en congressos), una de elles seleccionada per la IMIA com una de les millors publicacions en Sistemes d'Informació de Salut en 2013. Els resultats han contribuït en diversos projectes d'investigació, i han facilitat la industrialització de les tecnologies d / Sáez Silvestre, C. (2016). Probabilistic methods for multi-source and temporal biomedical data quality assessment [Tesis doctoral]. Editorial Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/62188 / Premiado
|
Page generated in 0.0719 seconds