Spelling suggestions: "subject:"calidad dde datos"" "subject:"calidad dee datos""
1 |
Business Intelligence: Errores comunes en su implementaciónMedina La Plata, Edison Humberto 04 November 2014 (has links)
Hoy las iniciativas de Business Intelligence se han vuelto una gran necesidad en las organizaciones de todo tipo y tamaño, sin embargo hemos encontrado que en muchos casos estas implementaciones no están generando los resultados esperados, quedando luego en desuso. Identificamos los errores típicos por las cuales fallan estos proyectos, que los hemos sintetizado en siete puntos que explican este deterioro, de los cuales estamos planteando recomendaciones para que puedan atenuarlos en sus propias iniciativas.
|
2 |
Publicación y enriquecimiento semántico de datos abiertos en bibliotecas digitalesCandela, Gustavo 02 July 2019 (has links)
La Biblioteca Virtual Miguel de Cervantes, con dirección web http://www.cervantesvirtual.com, es una biblioteca digital española creada en 1999 con el objetivo principal de difundir la cultura hispánica. Siguiendo los pasos de las grandes bibliotecas, a principios de 2015 la BVMC lanzó su primera versión de datos abiertos basada en el vocabulario RDA que se encuentra disponible en la dirección http://data.cervantesvirtual.com. El proyecto de datos abiertos de la BVMC tiene como objetivos promover la compartición y reutilización de datos, así como la difusión de buenas prácticas. Esta tesis presenta los pasos seguidos para publicar y enriquecer semánticamente los datos abiertos de la BVMC e incluye las siguientes aportaciones: • Construcción de un entorno de publicación y enriquecimiento de datos abiertos que permite comprender mejor el contexto, los problemas y necesidades organizacionales, reduciendo las posibilidades de fracaso de este tipo de proyectos. • Establecimiento de una metodología que sistematiza y facilita el descubrimiento e identificación de entidades en un dominio de bibliotecas digitales. • Desarrollo de herramientas y algoritmos para automatizar el procesamiento de conjuntos de datos basados en registros bibliográficos de manera eficiente. • Propuesta de una metodología para la evaluación de la calidad de los datos que incluye la precisión, la consistencia y la accesibilidad, entre otros criterios. Como resultado del trabajo realizado se han publicado tres artículos en revistas indexadas, dos de ellos en Journal of Information Science y uno en Semantic Web Journal, además una publicación en la conferencia Advances in Information Retrieval, así como numerosas comunicaciones a nivel nacional e internacional, en colaboración con otras instituciones.
|
3 |
Marco de referencia para la publicación de datos abiertos comprensibles basado en estándares de calidadCadena-Vela, Susana 20 November 2019 (has links)
Los portales donde se publican datos abiertos son una oportunidad para democratizar el acceso a la información generada por las instituciones del sector público, así como potenciar su reutilización. Esta reutilización de datos abiertos permite el desarrollo de nuevos productos y servicios digitales, creando oportunidades de desarrollo social y económico. Sin embargo, la reutilización de estos datos se enfrenta con diversas barreras en su expansión, debido a diversos problemas relacionados con la calidad de datos que van desde la incompletitud de los datos hasta la falta de actualización de los mismos. En concreto, un criterio relevante de calidad de datos abiertos es la comprensibilidad, ya que un proceso de interpretación errónea de los datos abiertos provocará ambigüedades o malentendidos que desmotivará su reutilización. Por esta razón, un aspecto importante en el acceso a los datos abiertos son sus metadatos, es decir aquellos datos que describen el contenido del conjunto de datos abiertos, cuya finalidad es facilitar su comprensión. Con el fin de mejorar la comprensibilidad de los datos abiertos, las propuestas actuales se centran en la evaluación de los datos ya publicados, no existiendo propuestas que evalúen cómo se puede mejorar la comprensibilidad de los datos abiertos desde los sistemas de información de origen del dato. Esta tesis doctoral revisa y analiza los trabajos de investigación en datos abiertos mediante el desarrollo de un mapeo sistemático, incluyendo un análisis de barreras en la reutilización de datos abiertos, así como buenas prácticas y estándares aplicables al proceso de publicación de datos en formatos abiertos. Este análisis sistemático de trabajos previos de investigación ha servido como punto de partida para la definición de un marco de referencia que permita la publicación de datos abiertos comprensibles. En este marco de referencia se considera la comprensibilidad de los datos abiertos mediante la gestión de los metadatos desde las mismas fuentes de datos en los sistemas de información de origen, incluyendo el concepto de fichero de datos maestros de apertura. Finalmente, cabe destacar que, a través de la aplicación del método de investigación-acción, se ha validado el marco de referencia, utilizando entrevistas y grupos de discusión con varios administradores de portales de datos abiertos.
|
4 |
Un enfoque multidimensional basado en RDF para la publicación de Linked Open DataEscobar Esteban, María Pilar 07 July 2020 (has links)
Cada vez hay disponibles más datos de manera pública en Internet y surgen nuevas bases de conocimiento conocidas como Knowledge Graph, basadas en conceptos de Linked Open Data (datos abiertos enlazados), como DBPedia, Wikidata, YAGO o Google Knowledge Graph, que cubren un amplio abanico de campos del conocimiento. Además, se incorporan los datos que provienen de diversas fuentes como dispositivos inteligentes o las redes sociales. Sin embargo, que estos datos estén públicos y accesibles no garantiza que sean útiles para los usuarios, no siempre se garantiza que sean confiables ni que puedan ser reutilizados de manera eficiente. Actualmente, siguen existiendo barreras que dificultan la reutilización de los datos, porque los formatos son poco adecuados para el procesamiento automático y publicación de la información, por falta de metadatos descriptivos y de semántica, duplicidades, ambigüedad o incluso errores en los propios datos. A todos estos problemas hay que añadir la complejidad del proceso de explotación de la información de un repositorio de datos abiertos enlazados. El trabajo y conocimientos técnicos que requiere el acceso, recolección, normalización y preparación de los datos para que puedan ser reutilizados supone una carga extra para los usuarios y organizaciones que quieran utilizarlos. Para garantizar una eficiente explotación de los mismos, resulta fundamental dotarlos de más valor estableciendo conexiones con otros repositorios que permitan enriquecerlos; garantizar su valor, evaluando y mejorando la calidad de lo que se publica; y asimismo ofrecer los mecanismos necesarios que faciliten su explotación. En este trabajo de tesis se ha propuesto un modelo para la publicación de Linked Open Data que, a partir de un conjunto de datos obtenidos de diversas fuentes, facilita la publicación, enriquecimiento y validación de los datos, generando información útil y de calidad orientada a usuarios expertos y no expertos.
|
5 |
Modelos de madurez para la mejora de calidad de los datos de los indicadores de desarrollo sostenibleMarcovecchio, Ignacio 24 October 2019 (has links)
La agenda global de desarrollo está definida por los Objetivos de Desarrollo Sostenible – un conjunto de 17 objetivos acordados por todos los Estados Miembros de las Naciones Unidas en el año 2015 que promueven acciones para terminar con la pobreza, proteger el planeta y asegurar que todas las personas disfruten de paz y prosperidad para el año 2030. Disponer de datos útiles y confiables para poder tomar decisiones informadas es uno de cimientos necesarios para alcanzar estos objetivos. Sólo mediante mediciones que reflejen claramente la realidad se pueden definir estrategias y asignar recursos que lleven a alcanzar los objetivos. El trabajo de investigación que se presenta en esta tesis tiene como objetivo contribuir con el cumplimiento de los objetivos de desarrollo sostenible a través de intervenciones que contribuyen a fortalecer las capacidades de las entidades responsables de producir los datos que describen la realidad de los distintos países. En particular, esta investigación propone la utilización de modelos de madurez de la capacidad como instrumentos para mejorar la capacidad de las entidades responsables de obtener e informar datos sobre el progreso en la implementación de la agenda de desarrollo. Mas específicamente, propone la formulación de un modelo de madurez de la capacidad prescriptivo y multidimensional para evaluar y mejorar la capacidad de los procesos que las Oficinas Nacionales de Estadísticas utilizan para obtener e informar datos estadísticos oficiales a los indicadores de los Objetivos de Desarrollo Sostenible.
Esta tesis adopta el enfoque de Ciencia del Diseño y entre sus actividades de investigación y desarrollo realiza un relevamiento de la literatura sobre desarrollo sostenible; identifica, analiza y clasifica los instrumentos para la producción de datos estadísticos; define un modelo conceptual que describe los ecosistemas de datos; realiza un relevamiento de la literatura sobre la medición del progreso de los países en gobierno digital; estudia cómo los indicadores de los instrumentos de medición de gobierno digital pueden proveer datos a los indicadores de los Objetivos de Desarrollo Sostenible; releva la literatura existente sobre modelos de madurez; diseña y desarrolla un modelo de madurez de la capacidad y valida la calidad y la utilidad del modelo desarrollado.
Las principales contribuciones de la tesis, además del modelo mencionado, son: una clasificación de los instrumentos relevantes para la calidad en la producción de datos estadísticos, una matriz de alineación de indicadores que permite determinar la similitud entre indicadores de desarrollo, un conjunto de indicadores de gobierno digital que aportan datos y metodologías para algunos indicadores de desarrollo sostenible, un conjunto de recomendaciones para la reutilización de trabajos de medición en áreas relacionadas con el desarrollo sostenible para la medición de los indicadores de los Objetivos de Desarrollo Sostenible y un conjunto de recomendaciones para utilizar modelos de madurez de la capacidad como instrumentos para estandarizar la producción de datos estadísticos. / The global development agenda is defined by the Sustainable Development Goals – a set of 17 goals agreed by all the Member States of the United Nations in 2015 that aim at protecting the planet and contributing to ensuring peace and prosperity for all the people by the year 2030. Useful and reliable data that enable informed decision making is critical to achieving such objectives. Measuring the results of sustainable development actions allows data-driven decision making, which is key for the development of implementation strategies and the proper allocation of resources, which are crucial to reach the objectives. This research advocates for the achievement of the 2030 Agenda for Sustainable Development through interventions towards improving the capabilities of the entities within the national data ecosystems responsible for monitoring its progress. In particular, the research proposes the adoption of capability maturity models to strengthen the capabilities of the National Statistical Offices to report the progress in the implementation of the development agenda. More specifically, it formulates a multidimensional prescriptive Capability Maturity Model to assess and enhance the maturity of the processes that the National Statistical Offices employ for producing and reporting data for the indicators of the Sustainable Development Goals. This thesis adopts a Design Science approach and the main research and development activities include a review and analysis of the relevant literature in sustainable development; the identification, analysis and classification of the instruments available for the production of statistical data; the definition of a conceptual model that describes the global data ecosystem; a review of the literature and practices available for measuring the development of Digital Government; a study of how the indicators utilized by the Digital Government measurement instruments can inform the Sustainable Development Goals indicators; a study of the literature on maturity models; the design and development of a capability maturity model; and the validation of the quality and usefulness of such model. The main contributions of this thesis, in addition to the aforementioned model, are a classification of the relevant instruments for improving the quality in the production of statistical data, an alignment matrix to determine the correlation between development indicators, a set of Digital Government indicators that contribute data and methodologies to some sustainable development indicators, a set of recommendations for the reutilization of measurement exercises in areas related to sustainable development in the measurement of the Sustainable Development Goals, and a set of recommendations for the utilization of capability maturity models as instruments for the standardization of the production of official statistics.
|
6 |
Modelo de madurez para portales de datos abiertos e incorporación a la norma técnica nacional de Costa RicaOviedo Blanco, Edgar 26 January 2016 (has links)
El crecimiento exponencial del volumen de datos disponibles hoy en día, ha generado la necesidad de integrar y clasificar dichos datos, posibilitando su publicación de tal manera que se facilite su posterior consumo. En este escenario de datos masivos (“big data”), tener en cuenta esta dicotomía publicación-consumo es de gran importancia para poder obtener valor económico y social a partir de la reutilización de datos. De hecho, ésta es la clave del concepto de datos abiertos (“open data”), que consiste en publicar datos de manera organizada con el fin de potenciar su consumo. La publicación de estos datos se lleva a cabo mediante el desarrollo de portales de datos abiertos, con el fin de propiciar que puedan estar disponibles con un nivel de calidad adecuado para los consumidores de datos. Cuando estos datos abiertos provienen del sector público, se emplea el término datos públicos (“public data”), concepto que está relacionado directamente con la información de carácter gubernamental generada por instituciones públicas, puesta a disposición de la ciudadanía con el afán de fortalecer principalmente la transparencia y la rendición de cuentas, dos conceptos que – políticamente hablando – tienen alta relevancia en los gobiernos actuales. Además del impacto social que ello representa, también es posible obtener de los datos públicos un impacto económico si se cumple con ciertas características o criterios de calidad que aseguren la madurez del portal de datos abiertos en el que están publicados, garantizando que se permita una adecuada reutilización de los datos con el fin de obtener productos y servicios de valor añadido. Queda patente entonces la importancia de definir mecanismos adecuados para evaluar la madurez de un portal de datos abiertos. Por tanto, la hipótesis de partida de la investigación desarrollada en esta tesis doctoral plantea que, a partir de ciertos criterios de calidad del portal de datos abiertos se puede determinar su madurez, lo que permitirá determinar el cumplimiento de sus objetivos. Estos criterios de calidad de un portal de datos abiertos deben contemplar aspectos tanto de la calidad de los datos como de la calidad del portal en sí, es decir, de las características y herramientas de las que éste dispone para gestionar los conjuntos de datos que en él están publicados. Partiendo de esta hipótesis, esta investigación tuvo como objetivo primordial la definición de un modelo de madurez para portales de datos abiertos, valorando y definiendo para ello diferentes medidas de calidad hasta lograr establecer los criterios finales que conforman dicho modelo. Concretamente, se presenta como contribución un modelo de madurez cualitativo con varios criterios de calidad aplicables a portales de datos abiertos, considerando aspectos que no habían sido profundamente considerados en estudios o trabajos anteriores y que ameritan ser incluidos dentro de un instrumento para la medición de la madurez. Cabe destacar que las contribuciones del trabajo de investigación desarrollado en esta tesis están siendo consideradas como parte del Programa de Gobierno Abierto que está llevando a cabo actualmente el Gobierno de Costa Rica. Al considerarse el valor agregado de contar con un modelo de madurez para portales de datos abiertos, la propuesta desarrollada en esta tesis fue utilizada como uno de los principales insumos en la creación de la norma técnica nacional INTE 27-02-02:2015 para portales de datos abiertos de Costa Rica por parte del Instituto de Normas Técnicas de Costa Rica (INTECO). Esta norma permite evaluar portales de datos abiertos costarricenses para ubicarlos en un nivel de madurez concreto, siendo muy necesaria en el contexto nacional por lo que ha sido fundamental la incorporación del modelo generado a partir de esta investigación. Finalmente, se debe señalar que una parte importante de este trabajo fue la aplicación piloto tanto del modelo de madurez propuesto como de la norma técnica nacional – antes mencionada – en diversos portales de datos abiertos costarricenses existentes. Como parte de las conclusiones, al final de este documento se presentan los resultados de la aplicación hecha tanto del modelo como de la norma, con el fin de dar al lector un insumo más para valorar lo presentado en esta tesis.
|
7 |
Diseño, construcción y evaluación de repositorios estandarizados con calidad de datos asegurada para la monitorización de la atención a la alimentación infantilGarcía de León Chocano, Ricardo 20 October 2022 (has links)
[ES] El establecimiento de la Historia Clínica Electrónica (HCE) como fuente de conocimiento en el ámbito clínico es una cuestión clave para las organizaciones sanitarias para el desarrollo de la investigación, docencia y la mejora de la calidad asistencial. El actual despliegue de los sistemas de información sanitarios supone que los datos de HCE sean una excelente fuente de datos candidata con la que generar repositorios para estos propósitos, debido a su cobertura poblacional y continuidad en el tiempo.
Para garantizar la validez y fiabilidad de la reutilización de datos de HCE para investigación y monitorización de la asistencia sanitaria, es necesario evaluar y asegurar su calidad de datos. Así como utilizar estándares de información sanitaria para dar soporte a la continuidad asistencial.
Esta tesis tiene como propósito diseñar un proceso de construcción de repositorios, estandarizados y con calidad de datos asegurada, con el que construir un repositorio de datos integrados (IDR) de alimentación infantil a partir de datos multi-fuente de HCE. El objetivo de este IDR es habilitar el re-uso de datos para la monitorización de la atención a la alimentación infantil hasta los dos años, centrado en la lactancia materna como uno de los principales determinantes de la salud materno-infantil.
Para la gestión de la calidad de datos se ha utilizado un marco conceptual basado en dimensiones de calidad de datos para una gestión de calidad de datos total del proceso. Como estándares de información sanitaria se han utilizado UNE-EN-ISO 13940 (Contsys) y UNE-EN-ISO 13606. Para la monitorización se han utilizado los indicadores definidos por la Organización Mundial de la Salud para la evaluación de estrategias internacionales de alimentación infantil como la Iniciativa para la Humanización de la Asistencia al Nacimiento y la Lactancia (IHAN).
El proceso de construcción de repositorios ha estado estrechamente relacionado con la estrategia "Hasta Que Tú Quieras (HQTQ)", desarrollada en el Área de Salud V-Altiplano del Servicio Murciano de Salud para mejorar la calidad de la atención a la alimentación al lactante. Las especificaciones y requerimientos del proceso asistencial de atención a la alimentación del lactante guiaron la definición de los modelos de información.
El proceso de construcción ha sido aplicado sobre real world data multi-fuente proveniente de la HCE del Área V-Altiplano. En concreto del sistema de información hospitalario de su hospital de referencia, Hospital Virgen del Castillo y del sistema de información de Atención Primaria de los 3 centros de salud del área, durante el periodo 2009-2018.
La aplicación de dimensiones de calidad de datos sobre procedimientos de evaluación y aseguramiento de calidad de datos, junto con el uso de conceptos de la norma Constys, han contribuido al diseño del proceso de construcción de repositorios estandarizados con calidad de datos asegurada.
La aplicación de los métodos del proceso de construcción de repositorios sobre los datos de la HCE perinatal del hospital y del seguimiento de alimentación de los centros de atención primaria han contribuido a la creación del IDR, con calidad de datos asegurada y estandarizado según la norma Contsys; así como a la estimación robusta de indicadores de alimentación infantil y la habilitación de un sistema de monitorización poblacional y continuo a partir de datos de HCE.
La experiencia de integración de los repositorios materno-infantiles del Hospital Virgen del Castillo y el Hospital 12 de Octubre de Madrid ha contribuido a la creación de un IDR estandarizado conforme a la norma UNE-EN-ISO 13606 y a una propuesta de arquetipos para integración de repositorios materno-infantiles a nivel nacional.
La información de calidad obtenida del IDR ha contribuido a la obtención del Sello de Buenas de Prácticas del Ministerio de Sanidad, Servicios Sociales e Igualdad y la ampliación a escala del modelo de información perinatal a todo el Servicio Murciano de Salu / [CA] L'establiment de la Història Clínica Electrònica (HCE) com a font de coneiximent a l'àmbit clínic és una qüestió clau per a les organitzacions sanitàries per al desenvolupament de la investigació, docència i la millora de la qualitat assistencial. L'actual desplegament dels sistemes de informació sanitaris suposa que les dades de HCE siguen una excel·lent font de informació amb la qual generar repositoris de dades per a aquests propòsits, a causa de la seua cobertura poblacional i continuïtat en el temps.
Per garantir la validesa i fiabilitat de la reutilització de dades de HCE per a investigació i monitoratge de l'assistència sanitària, és necessari avaluar i assegurar la seua qualitat . Així com utilitzar diferents estàndards d'informació sanitària per donar suport a la continuïtat assistencial.
Aquesta tesi té com a propòsit dissenyar un procés de construcció de repositoris, éstandaritzats i amb qualitat de dades assegurada, amb el qual construir un repositori de dades integrats (IDR) d'alimentació infantil a partir de dades multi-font de HCE. L'objectiu d'aquest IDR és habilitar la reutilització de dades per al monitoratge de l'atenció a l'alimentació infantil fins als dos anys, centrat en la lactància materna com un dels principals determinants de la salut matern-infantil.
Per a la gestió de la qualitat de dades s'ha utilitzat un marc conceptual basat en dimensions de qualitat de dades per a una gestió de qualitat de dades total del procés. Com a estàndards d'informació sanitària s'han utilitzat UNE-EN-ISO 13940 (Contsys) i UNE-EN-ISO 13606. Per al monitoratge s'han empleat els indicadors definits per l'Organització Mundial de la Salut per a l'avaluació d'estratègies internacionals d'alimentació infantil com la Iniciativa per a la Humanització de la Asistencia al Naixement i la Lactància (IHAN).
El procés de construcció de repositoris ha estat estretament relacionat amb l'estratègia "Hasta Que Tú Quieras (HQTQ)" desenvolupada a l'Àrea de Salut V - Altiplano del Servicio Murciano de Salud per a millorar la qualitat de l'atenció a l'alimentació al lactant. Les especificacions i requeriments del procés assistencial d'atenció a l'alimentació del lactant van guiar la definició dels models d'informació.
El procés de construcció ha sigut aplicat sobre real world data multi-font provinent de la HCE de l'Àrea de Salut V-Altiplano del Servicio Murciano de Salud. En concret del sistema d'informació hospitalari del seu hospital de referència, Hospital Virgen del Castillo i del sistema d'informació d'Atenció Primària dels tres centres de salut de l'àrea, durant el període 2009-2018.
L'aplicació de dimensions de qualitat de dades sobre procediments d'avaluació i assegurament de qualitat de dades, juntament amb l'ús de conceptes de la norma Contsys, han contribuït al disseny del procés de construcció de repositoris estandarditzats amb qualitat de dades assegurada.
L'aplicació dels mètodes del procés de construcció de repositoris sobre les dades de la HCE perinatal de l'hospital i del seguiment de l'alimentació infantil d'atenció primària han contribuït a la creació del IDR, amb qualitat de dades assegurada i estandarditzat segons la norma Contsys. Així com a l'estimació robusta d'indicadors d'alimentació infantil i l'habilitació d'un sistema de monitoratge poblacional i continu a partir de dades de HCE.
L'experiència d'integració dels repositoris matern-infantils de l'Hospital Virgen del Castillo i l'Hospital 12 d'Octubre de Madrid ha contribuït a la creació d'un IDR estandarditzat conforme a la norma UNE-EN ISO 13606 i a una proposta d'arquetips per a integració de repositoris matern-infantils a nivell nacional.
La informació de qualitat obtinguda del IDR ha contribuït a l'obtenció del Segell de Bones de Pràctiques del Ministeri de Sanitat, Serveis Socials i Igualtat i al "scaling-up" del model d'informació perinatal a tot el Servei Murcià de Salut. / [EN] The establishment of the Electronic Health Record (EHR) as a source of knowledge in the clinical setting is a key issue for healthcare organizations for the development of research, teaching and the improvement of healthcare quality. The current deployment of health information systems means that EHR data are an excellent candidate data source with which to generate repositories for these purposes, due to their population coverage and continuity over time.
To ensure the validity and reliability of the reuse of EHR data for research and healthcare monitoring, it is necessary to assess and assure its data quality. As well as using health information standards to support continuity of care.
The purpose of this thesis is to design a standardized and DQ assured repository construction process to build an Integrated Data Repository (IDR) for infant feeding from multi-source EHR data. The goal of this IDR is to enable the reuse of data for monitoring infant feeding care up to two years of age, focusing on breastfeeding as one of the main determinants of maternal and child health.
For DQ management, a conceptual framework based on DQ dimensions has been used for a total data quality management of the process. UNE-EN-ISO 13940 (Contsys) and UNE-EN-ISO 13606 have been used as health information standards. The "Indicators for assessing infant and young child feeding practices" (IYCF), defined by the World Health Organization were used for monitoring. This set of indicators is the current reference for the evaluation of international infant feeding strategies such as the Baby Friendly Hospital Initiative (BFHI).
The construction process of repositories has been closely related to the "Hasta Que Tú Quieras (HQTQ)" strategy, developed in the Health Area V-Altiplano of the Servicio Murciano de Salud to improve the quality of care for infant feeding. The specifications and requirements of the infant feeding care process guided the definition of information models.
The construction process has been applied on real world multi-source data from the EHR of the Health Area V-Altiplano. Specifically, from the hospital information system of its reference hospital, Hospital Virgen del Castillo, and from the primary care information system of the 3 health centers of the area, during the period 2009-2018.
The application of DQ dimensions on DQ assessment and assurance procedures, together with the use of concepts of the Contsys standard, have contributed to the design of the process of building standardized and DQ assured repositories.
The application of the methods of the repository construction process on perinatal EHR data from the hospital along with the EHR data from the area's primary care information system for monitoring infant feeding has contributed to the creation of the IDR, with DQ assured and standardized according to the Contsys standard; As well as for the robust estimation of infant feeding indicators and the implementation of a population-based and continuous monitoring system based on EHR data.
The experience of integrating the mother-child repositories of the Virgen del Castillo Hospital and the 12 de Octubre Hospital in Madrid has contributed to the creation of a standardized IDR in accordance with the UNE-EN-ISO 13606 standard and a proposal of archetypes for the integration of mother-child repositories at the national level.
The quality information obtained from the IDR has contributed to obtaining the Seal of Good Practices of the Ministry of Health, Social Services and Equality and to the scaling-up of the perinatal information model to the whole Servicio Murciano de Salud. / García De León Chocano, R. (2022). Diseño, construcción y evaluación de repositorios estandarizados con calidad de datos asegurada para la monitorización de la atención a la alimentación infantil [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/188372
|
8 |
Robustness of Machine Learning algorithms applied to gas turbines / Robusthet av maskininlärningsalgoritmer i gasturbinerCardenas Meza, Andres Felipe January 2024 (has links)
This thesis demonstrates the successful development of a software sensor for Siemens Energy's SGT-700 gas turbines using machine learning algorithms. Our goal was to enhance the robustness of measurements and redundancies, enabling early detection of sensor or turbine malfunctions and contributing to predictive maintenance methodologies. The research is based on a real-world case study, implementing the Cross Industry Standard Process for Data Mining (CRISP DM) methodology in an industrial setting. The thesis details the process from dataset preparation and data exploration to algorithm development and evaluation, providing a comprehensive view of the development process. This work is a step towards integrating machine learning into gas turbine systems. The data preparation process highlights the challenges that arise in the industrial application of data-driven methodologies due to inevitable data quality issues. It provides insight into potential future improvements, such as the constraint programming approach used for dataset construction in this thesis, which remains a valuable tool for future research. The range of algorithms proposed for the software sensor's development spans from basic to more complex methods, including shallow networks, ensemble methods and recurrent neural networks. Our findings explore the limitations and potential of the proposed algorithms, providing valuable insights into the practical application of machine learning in gas turbines. This includes assessing the reliability of these solutions, their role in monitoring machine health over time, and the importance of clean, usable data in driving accurate and satisfactory estimates of different variables in gas turbines. The research underscores that, while replacing a physical sensor with a software sensor is not yet feasible, integrating these solutions into gas turbine systems for health monitoring is indeed possible. This work lays the groundwork for future advancements and discoveries in the field. / Denna avhandling dokumenterar den framgångsrika utvecklingen av en mjukvarusensor för Siemens Energy's SGT-700 gasturbiner med hjälp av maskininlärningsalgoritmer. Vårt mål var att öka mätkvaliten samt införa redundans, vilket möjliggör tidig upptäckt av sensor- eller turbinfel och bidrar till utvecklingen av prediktiv underhållsmetodik. Forskningen baseras på en verklig fallstudie, implementerad enligt Cross Industry Standard Process for Data Mining-metodiken i en industriell miljö. Avhandligen beskriver processen från datamängdsförberedelse och datautforskning till utveckling och utvärdering av algoritmer, vilket ger en heltäckande bild av utvecklingsprocessen. Detta arbete är ett steg mot att integrera maskininlärning i gasturbinssystem. Dataförberedelsesprocessen belyser de utmaningar som uppstår vid industriell tillämpning av datadrivna metoder på grund av oundvikliga datakvalitetsproblem. Det ger insikt i potentiella framtida förbättringar, såsom den begränsningsprogrammeringsansats som används för datamängdskonstruktion i denna avhandling, vilket förblir ett värdefullt verktyg för framtida forskning. Utvecklingen av mjukvarusensorn sträcker sig från grundläggande till mer komplexa metoder, inklusive ytliga nätverk, ensemblemetoder och återkommande neurala nätverk. Våra resultat utforskar begränsningarna och potentialen hos de föreslagna algoritmerna och ger värdefulla insikter i den praktiska tillämpningen av maskininlärning i gasturbiner. Detta inkluderar att bedöma tillförlitligheten hos dessa lösningar, deras roll i övervakning av maskinhälsa över tid och vikten av ren, användbar data för att generera korrekta och tillfredsställande uppskattningar av olika variabler i gasturbiner. Forskningen understryker att, medan det ännu inte är genomförbart att ersätta en fysisk sensor med en mjukvarusensor, är det verkligen möjligt att integrera dessa lösningar i gasturbinssystem för tillståndsövervakning. Detta arbete lägger grunden för vidare studier och upptäckter inom området. / Esta tesis demuestra el exitoso desarrollo de un sensor basado en software para las turbinas de gas SGT-700 de Siemens Energy utilizando algoritmos de aprendizaje automático. Esto con el objetivo de contribuir a las metodologías de mantenimiento predictivo. La investigación se basa en un estudio industrial que implementa la metodología de Proceso Estándar de la Industria para la Minería de Datos, cuyo acrónimo en inglés CRISP-DM. La tesis detalla el proceso desde la preparación del 'dataset', la exploración de datos hasta el desarrollo y evaluación de algoritmos, proporcionando una visión holistica del proceso de desarrollo. Este trabajo representa un paso hacia la integración del aprendizaje automático en turbinas de gas. Nuestros hallazgos exploran las limitaciones y el potencial de los algoritmos propuestos, proporcionando un analisis sobre la aplicación práctica del aprendizaje automático en turbinas de gas. Esto incluye evaluar la confiabilidad de estas soluciones, su papel en la monitorización de la salud de la máquina a lo largo del tiempo, y la importancia de los datos limpios y utilizables para impulsar estimaciones precisas y satisfactorias de diferentes variables en las turbinas de gas. La investigación sugiere que, aunque reemplazar un sensor físico con un sensor basado en aprendizaje automatico aún no es factible, sí es posible integrar estas soluciones en los sistemas de turbinas de gas para monitorear del estado de la maquina.
|
9 |
Probabilistic methods for multi-source and temporal biomedical data quality assessmentSáez Silvestre, Carlos 05 April 2016 (has links)
[EN] Nowadays, biomedical research and decision making depend to a great extent on the data stored in information systems. As a consequence, a lack of data quality (DQ) may lead to suboptimal decisions, or hinder the derived research processes and outcomes. This thesis aims to the research and development of methods for assessing two DQ problems of special importance in Big Data and large-scale repositories, based on multi-institutional, cross-border infrastructures, and acquired during long periods of time: the variability of data probability distributions (PDFs) among different data sources-multi-source variability-and the variability of data PDFs over time-temporal variability.
Variability in PDFs may be caused by differences in data acquisition methods, protocols or health care policies; systematic or random errors during data input and management; demographic differences in populations; or even falsified data. To date, these issues have received little attention as DQ problems nor count with adequate assessment methods. The developed methods aim to measure, detect and characterize variability dealing with multi-type, multivariate, multi-modal data, and not affected by large sample sizes. To this end, we defined an Information Theory and Geometry probabilistic framework based on the inference of non-parametric statistical manifolds from the normalized distances of PDFs among data sources and over time. Based on this, a number of contributions have been generated.
For the multi-source variability assessment we have designed two metrics: the Global Probabilistic Deviation, which measures the degree of global variability among the PDFs of multiple sources-equivalent to the standard deviation among PDFs; and the Source Probabilistic Outlyingness, which measures the dissimilarity of the PDF of a single data source to a global latent average. They are based on the construction of a simplex geometrical figure (the maximum-dimensional statistical manifold) using the distances among sources, and complemented by the Multi-Source Variability plot, an exploratory visualization of that simplex which permits detecting grouping patterns among sources.
The temporal variability method provides two main tools: the Information Geometric Temporal plot, an exploratory visualization of the temporal evolution of PDFs based on the projection of the statistical manifold from temporal batches; and the PDF Statistical Process Control, a monitoring and automatic change detection algorithm for PDFs.
The methods have been applied to repositories in real case studies, including the Public Health Mortality and Cancer Registries of the Region of Valencia, Spain; the UCI Heart Disease; the United States NHDS; and Spanish Breast Cancer and an In-Vitro Fertilization datasets. The methods permitted discovering several findings such as partitions of the repositories in probabilistically separated temporal subgroups, punctual temporal anomalies due to anomalous data, and outlying and clustered data sources due to differences in populations or in practices.
A software toolbox including the methods and the automated generation of DQ reports was developed. Finally, we defined the theoretical basis of a biomedical DQ evaluation framework, which have been used in the construction of quality assured infant feeding repositories, in the contextualization of data for their reuse in Clinical Decision Support Systems using an HL7-CDA wrapper; and in an on-line service for the DQ evaluation and rating of biomedical data repositories.
The results of this thesis have been published in eight scientific contributions, including top-ranked journals and conferences. One of the journal publications was selected by the IMIA as one of the best of Health Information Systems in 2013. Additionally, the results have contributed to several research projects, and have leaded the way to the industrialization of the developed methods and approaches for the audit and control of biomedical DQ. / [ES] Actualmente, la investigación biomédica y toma de decisiones dependen en gran medida de los datos almacenados en los sistemas de información. En consecuencia, una falta de calidad de datos (CD) puede dar lugar a decisiones sub-óptimas o dificultar los procesos y resultados de las investigaciones derivadas. Esta tesis tiene como propósito la investigación y desarrollo de métodos para evaluar dos problemas especialmente importantes en repositorios de datos masivos (Big Data), basados en infraestructuras multi-céntricas, adquiridos durante largos periodos de tiempo: la variabilidad de las distribuciones de probabilidad (DPs) de los datos entre diferentes fuentes o sitios-variabilidad multi-fuente-y la variabilidad de las distribuciones de probabilidad de los datos a lo largo del tiempo-variabilidad temporal.
La variabilidad en DPs puede estar causada por diferencias en los métodos de adquisición, protocolos o políticas de atención; errores sistemáticos o aleatorios en la entrada o gestión de datos; diferencias demográficas en poblaciones; o incluso por datos falsificados. Esta tesis aporta métodos para detectar, medir y caracterizar dicha variabilidad, tratando con datos multi-tipo, multivariantes y multi-modales, y sin ser afectados por tamaños muestrales grandes. Para ello, hemos definido un marco de Teoría y Geometría de la Información basado en la inferencia de variedades de Riemann no-paramétricas a partir de distancias normalizadas entre las PDs de varias fuentes de datos o a lo largo del tiempo. En consecuencia, se han aportado las siguientes contribuciones:
Para evaluar la variabilidad multi-fuente se han definido dos métricas: la Global Probabilistic Deviation, la cual mide la variabilidad global entre las PDs de varias fuentes-equivalente a la desviación estándar entre PDs; y la Source Probabilistic Outlyingness, la cual mide la disimilaridad entre la DP de una fuente y un promedio global latente. Éstas se basan en un simplex construido mediante las distancias entre las PDs de las fuentes. En base a éste, se ha definido el Multi-Source Variability plot, visualización que permite detectar patrones de agrupamiento entre fuentes.
El método de variabilidad temporal proporciona dos herramientas: el Information Geometric Temporal plot, visualización exploratoria de la evolución temporal de las PDs basada en la la variedad estadística de los lotes temporales; y el Control de Procesos Estadístico de PDs, algoritmo para la monitorización y detección automática de cambios en PDs.
Los métodos han sido aplicados a casos de estudio reales, incluyendo: los Registros de Salud Pública de Mortalidad y Cáncer de la Comunidad Valenciana; los repositorios de enfermedades del corazón de UCI y NHDS de los Estados Unidos; y repositorios españoles de Cáncer de Mama y Fecundación In-Vitro. Los métodos detectaron hallazgos como particiones de repositorios en subgrupos probabilísticos temporales, anomalías temporales puntuales, y fuentes de datos agrupadas por diferencias en poblaciones y en prácticas.
Se han desarrollado herramientas software incluyendo los métodos y la generación automática de informes. Finalmente, se ha definido la base teórica de un marco de CD biomédicos, el cual ha sido utilizado en la construcción de repositorios de calidad para la alimentación del lactante, en la contextualización de datos para el reuso en Sistemas de Ayuda a la Decisión Médica usando un wrapper HL7-CDA, y en un servicio on-line para la evaluación y clasificación de la CD de repositorios biomédicos.
Los resultados de esta tesis han sido publicados en ocho contribuciones científicas (revistas indexadas y artículos en congresos), una de ellas seleccionada por la IMIA como una de las mejores publicaciones en Sistemas de Información de Salud en 2013. Los resultados han contribuido en varios proyectos de investigación, y facilitado los primeros pasos hacia la industrialización de las tecnologías / [CA] Actualment, la investigació biomèdica i presa de decisions depenen en gran mesura de les dades emmagatzemades en els sistemes d'informació. En conseqüència, una manca en la qualitat de les dades (QD) pot donar lloc a decisions sub-òptimes o dificultar els processos i resultats de les investigacions derivades. Aquesta tesi té com a propòsit la investigació i desenvolupament de mètodes per avaluar dos problemes especialment importants en repositoris de dades massius (Big Data) basats en infraestructures multi-institucionals o transfrontereres, adquirits durant llargs períodes de temps: la variabilitat de les distribucions de probabilitat (DPs) de les dades entre diferents fonts o llocs-variabilitat multi-font-i la variabilitat de les distribucions de probabilitat de les dades al llarg del temps-variabilitat temporal.
La variabilitat en DPs pot estar causada per diferències en els mètodes d'adquisició, protocols o polítiques d'atenció; errors sistemàtics o aleatoris durant l'entrada o gestió de dades; diferències demogràfiques en les poblacions; o fins i tot per dades falsificades. Aquesta tesi aporta mètodes per detectar, mesurar i caracteritzar aquesta variabilitat, tractant amb dades multi-tipus, multivariants i multi-modals, i no sent afectats per mides mostrals grans. Per a això, hem definit un marc de Teoria i Geometria de la Informació basat en la inferència de varietats de Riemann no-paramètriques a partir de distàncies normalitzades entre les DPs de diverses fonts de dades o al llarg del temps. En conseqüència s'han aportat les següents contribucions:
Per avaluar la variabilitat multi-font s'han definit dos mètriques: la Global Probabilistic Deviation, la qual mesura la variabilitat global entre les DPs de les diferents fonts-equivalent a la desviació estàndard entre DPs; i la Source Probabilistic Outlyingness, la qual mesura la dissimilaritat entre la DP d'una font de dades donada i una mitjana global latent. Aquestes estan basades en la construcció d'un simplex mitjançant les distàncies en les DPs entre fonts. Basat en aquest, s'ha definit el Multi-Source Variability plot, una visualització que permet detectar patrons d'agrupament entre fonts.
El mètode de variabilitat temporal proporciona dues eines: l'Information Geometric Temporal plot, visualització exploratòria de l'evolució temporal de les distribucions de dades basada en la varietat estadística dels lots temporals; i el Statistical Process Control de DPs, algoritme per al monitoratge i detecció automàtica de canvis en les DPs de dades.
Els mètodes han estat aplicats en repositoris de casos d'estudi reals, incloent: els Registres de Salut Pública de Mortalitat i Càncer de la Comunitat Valenciana; els repositoris de malalties del cor de UCI i NHDS dels Estats Units; i repositoris espanyols de Càncer de Mama i Fecundació In-Vitro. Els mètodes han detectat troballes com particions dels repositoris en subgrups probabilístics temporals, anomalies temporals puntuals, i fonts de dades anòmales i agrupades a causa de diferències en poblacions i en les pràctiques.
S'han desenvolupat eines programari incloent els mètodes i la generació automàtica d'informes. Finalment, s'ha definit la base teòrica d'un marc de QD biomèdiques, el qual ha estat utilitzat en la construcció de repositoris de qualitat per l'alimentació del lactant, la contextualització de dades per a la reutilització en Sistemes d'Ajuda a la Decisió Mèdica usant un wrapper HL7-CDA, i en un servei on-line per a l'avaluació i classificació de la QD de repositoris biomèdics.
Els resultats d'aquesta tesi han estat publicats en vuit contribucions científiques (revistes indexades i en articles en congressos), una de elles seleccionada per la IMIA com una de les millors publicacions en Sistemes d'Informació de Salut en 2013. Els resultats han contribuït en diversos projectes d'investigació, i han facilitat la industrialització de les tecnologies d / Sáez Silvestre, C. (2016). Probabilistic methods for multi-source and temporal biomedical data quality assessment [Tesis doctoral]. Editorial Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/62188 / Premiado
|
Page generated in 0.0768 seconds