Global ETD Search

1	Sistematización del proceso de depuración de los datos en estudios con seguimientos Bonillo Martín, Albert 15 September 2003 (has links) El objetivo principal de esta tesis es realizar un análisis exhaustivo de los errores de tipo lógico que pueden presentarse en los datos ya grabados y aportar un procedimiento sistemático original para detectarlos y corregirlos. Para ello se ha programado un conjunto de macros SPSS que permiten detectar todos estos errores, generar de forma totalmente automática un informe de incidencias para corregirlos y ofrecer una estadística final de errores. Los algoritmos de estas macros son fácilmente transportables a SAS o a otros sistemas.El procedimiento propuesto consiste en crear un archivo de sintaxis con un conjunto de llamadas a macros que realizan el proceso de acuerdo con las siguientes fases: 1) lectura de la tabla con los datos originales grabados; 2) depurar el identificador para garantizar que cada registro está unívocamente identificado y se adecua a las formas normales de integridad referencial de la teoría relacional; 3) corregir las incidencias detectadas en el indentificador; 4) incorporar las variables de referencia de otras tablas que sean necesarias para depurar la tabla de datos; 5) depurar las variables de salto; 6) corregir las incidencias detectadas en las variables de salto; 7) depurar el resto de variables del estudio, detectando las incidencias que sean consecuencia de inconsistencias y los valores desconocidos; 8) corregir las incidencias detectadas, introduciendo el valor correcto o valor desconocido si no se conoce el valor correcto; y 9) generar una estadística de los errores detectados y de los valores desconocidos presentes en la matriz de datos depurados.El proceso comporta realizar de forma iterativa las fases de chequeo y corrección hasta que las únicas incidencias detectadas sean valores desconocidos no recuperables. Asimismo, el proceso incorpora un historial de cambios que permita conocer todas las modificaciones efectuadas sobre los datos originales. La tesis se estructura en seis capítulos, los tres primeros de carácter teórico y los tres últimos aplicados.El capítulo primero revisa de forma sucinta los conceptos básicos de "medida" en psicología y "error", así como los controles que se deben implementar para minimizar las incidencias en el proceso de los datos, distinguiendo entre aquellos que son aplicables a la captura diferida y los que lo son a la captura directa. El segundo capítulo se centra en la definición operativa del error en el proceso de la gestión de los datos, exponiendo la necesidad de evaluar la calidad de la información previamente a su análisis estadístico e introduciendo el concepto de depuración.En el tercer capítulo se revisan múltiples controles propuestos para distintas tipologías de variables. Se muestran técnicas de detección de errores por registros duplicados, en variables cuantitativas, en variables categóricas, etc. Así mismo, se presentan técnicas novedosas en la detección de errores que, pese a ser habituales en otras disciplinas como la economía o la auditoría, no lo son en absoluto en las Ciencias de la Salud.En el cuarto capítulo, de carácter aplicado, se expone el proceso de depuración propuesto en esta tesis y se especifican controles y chequeos para todas las tipologías de variables descritas en los apartados teóricos, se detalla el tipo de comprobación que debe efectuarse y el algoritmo en pseudocódigo que permite su implantación. Asimismo, para cada tipo de variable se ha programado una macro en lenguaje SPSS que permite automatizar el control.En el quinto capítulo se detalla la aplicación de la metodología de depuración propuesta a datos reales: la Encuesta Sociodemográfica, el Conjunto de Datos Mínimo de Alta Hospitalaria y la Historia Clínica Electrónica. Estos ejemplos se caracterizan por bases de datos extensas y de estructura compleja. En esta parte del trabajo se expone de qué modo se ha realizado la depuración y se valora el comportamiento mostrado por este proceso. Finalmente, en el último capítulo se exponen las principales conclusiones y se discuten las implicaciones teóricas y prácticas de este trabajo. / The primary target main purpose of this thesis is to contribute improve data quality with a procedure that allows to detect and to correct errors in the recorded data already recorded. To do this, For it a data cleansing purgingcleansing /depuration/(busca una palabra más técnica en la literatura) process has been designed that is organized in the following phases: 1) reading of the recorded data; 2) depuration/purge cleans of the identifier, guaranteeing that each registry is univocally identified and that is adapted to the referential integrity normal forms of referential integrity of the relational theory; 3) correction of the incidences detected in the indentificador identifier 4) depuration/purge cleans of the skip (¿No hay una palabra más técnica para variable de salto? Esto Lourdes no lo sabrá y yo tampoco) skip variables, 5) correction of the incidences detected in the skip variables, 6) cleans purge/depuration of the other rest of variables of the study, by detecting the incidences contained in the recorded data like that are not known consequence of inconsistencieas (inconsistencies) and missing (desconocidos) values; 7) correction of the detected incidences, introducing whenever it is possible the correct value or assigning to missing value when it is not had this one; and 8) obtaining of a statistic of the errors detected by the data cleansingcleans purge/depuration process and of the unknown/missing values contents in the final data.It is important to repeat in an iterative form tThe phases of control and correction are due to make of iterative form until the only detected incidences would beare missing and nonrecoverable values nonrecoverable. Also, this data cleansing process of cleansing must be accompanied by a file of historical changes that allows to know all the modifications conducted from in the original data. The systematic controls of this design must be integrated through macros (for example in SPSS or SAS language SPSS or SAS) that automates and guarantees them their functionality. In addition, we have elaborated created the macros in SPSS syntax SPSS to carry out the data cleansingcleansing; the algorithms contained in these macros are easily transportable to other statistical packages.This thesis is structured in six chapters, the three first three chapters are of theoretical character and the other are three last ones applied.The first chapter first reviews the basic concepts of measure and error in psychology and error, as well as the controls that it is necessary to are due to implement to diminish the incidences in the dataof the data. We, distinguishing between controls that they are applicable to the deferred capture and those that are it applicable to the direct capture.The second chapter is centered focused in on the operative definition of the error in the process of the management of the data process. We, explainhaving exposed it is necessarythe necessity to previously evaluate the quality of the information prior to conduct to its statistical analysis, and introduceing the cleansing concept of data cleansing.In the third chapter they we review manifold many controls proposed for different tipology from of variables. Are Ttechniques to detect of detection of errors by duplicated records, in quantitative and variables, categorical variables, etc., are shown. Also, we show novel new techniques in the detection of errors appear that are wellknown , in spite of to be habitual in other disciplines like the economy economics or the auditory, but unknown in the Health Sciencesare not it absolutely in Sciences of the Health.In the fourth chapter, of applied character, the data cleansing process of cleansing is exposed proposed in this thesis and controls are specified and controls for all the tipology of variables described in the theoretical sections are specified. We, detail the type of verification that must take place and the algorithm in pseudocode that allows its implementationantation. Also, for each type of variable a macro in SPSS language SPSS has been programmed that allows to automate the control.In the fifth chapter the application to real data of this proposed depuration process the methodology of propose purification to real data is detailedspecified: the Sociodemographic Survey, the Minimum Data set of Hospitable Discharge and the Electronic Clinical History. These examples are characterized by large and complex structure data bases extensive complex structure and data bases. In this part of the work it is exposed how the purification data cleansing process has been made in this case and the behavior shown by this process is valued.Finally, in the last chapter the main conclusions are exposed and the theoretical and practical implications of this work are discussed. Gestión de los datos Calidad de los datos Depuración de datos Ciències de la Salut 519.1
2	Machine Learning: Requisitos y nuevas técnicas para la aplicación en entornos industriales e Internet of Things Barrera, Jose Manuel 23 January 2024 (has links) Con la conversión de la industria tradicional a industria 4.0, la inteligencia artificial (IA), Internet de las Cosas (IoT), el Machine Learning (ML) y la calidad de los datos (DQ) adquieren nuevas dimensiones y una notoria relevancia en el campo de la industria. Uno de los usos más solicitados de la IA en el campo de la industria es la búsqueda de la mejora de la rentabilidad, ya sea aumentando la producción, o disminuyendo los costes del propio proceso industrial. En esta tesis se abordan los dos objetivos: para la optimización de producción, se presenta un sistema para la cuantificación de energía generada para instalaciones solares fotovoltaicas. Este modelo está basado en Open Data provenientes de satélites, sensores IoT y Redes Neuronales Artificiales (ANN). Así, facilitamos a los lectores la información necesaria para decidir cuánto deberían invertir en una ubicación en concreto, en función de la producción energética deseada. En comparación con las propuestas más avanzadas, nuestra solución proporciona una capa de abstracción centrada en la producción de energía, en lugar de en los datos de radiación, y puede entrenarse y adaptarse a diferentes ubicaciones utilizando Open Data. Por otra parte, para la disminución de costes del propio proceso industrial, se presenta un modelo de ML basado en autoencoders que permite la Detección y el Diagnosis de Errores (FDD) y acorta las interrupciones del proceso productivo. El enfoque presentado explota los datos generados por el proceso industrial y entrena una arquitectura basada en ML, combinando varios algoritmos con autoencoders y ventanas deslizantes. La solución presentada ayuda a detectar precozmente las averías y se ha sido probada con datos reales procedentes de una instalación con una turbina de cogeneración de energía eléctrica. Además, se destaca que, aunque el ejemplo usado para nuestro enfoque utiliza una instalación industrial de una turbina de gas, éste puede adaptarse a otros problemas de FDD en otros procesos industriales que podrían beneficiarse de las ventajas mencionadas. Sin embargo, durante la realización del proyecto se han encontrado dos dificultades adicionales: que no existe una metodología establecida para la captación de requisitos para proyectos de ML; y que no existe información adecuada y suficiente sobre el efecto de las desviaciones de la Calidad de lo Datos (DQ) en dichos modelos ML. Por consiguiente, en esta tesis se presentan dos soluciones adicionales para dichos problemas. Para solventar la captación de requisitos en proyectos de ML, se presenta una particularización del modelo de requisitos iStar (i). Mediante esta particularización, los recién llegados y los no expertos en el campo del ML pueden seguir una metodología que les guiará por el camino correcto a seguir, evitando modelos no válidos. El marco i es un popular lenguaje de modelado para capturar el entorno y los requisitos de un sistema. Sin embargo, se ha construido sobre una capa de abstracción muy alta, y sus usos en un campo específico dependen en gran medida de la experiencia del diseñador. La propuesta presentada resuelve esto: especifica el marco i*, cubriendo las principales lagunas entre el ML y el modelado conceptual. Así, proporcionamos una línea de base adecuada a seguir que captura los requisitos y cumple las numerosas restricciones del campo del ML. Además, se presenta una guía basada en preguntas para aplicar dicha propuesta, y se aplica la metodología descrita en el proyecto de la turbina de gas descrito previamente. Así, se puede ver su viabilidad y cómo su uso filtra diseños no válidos. Respecto al punto de ver la cuantificación del efecto de DQ en los proyectos de ML, en esta tesis se presenta un enfoque sistemático, basado en la norma ISO 25012, para estimar el impacto de la degradación de la DQ en diferentes algoritmos, con el fin de cuantificar dicho efecto en la salida de un modelo de ML de una instalación real (la de la turbina de gas de cogeneración). Se debe destacar que en una instalación real puede haber fuertes restricciones de tiempo y espacio, y la limpieza de datos como tal no siempre es posible, por lo que el modelo de ML debe lidiar de con dichos problemas de DQ. Para ello, se ha definido una metodología mediante la cual, se contamina progresivamente los datos para disminuir dos características de D, accuracy y currentness. Como resumen, la tesis se centra en 4 puntos: optimización de un proceso industrial de generación solar fotovoltaica, mejora en el mantenimiento industrial mediante mantenimiento predictivo en una instalación real, metodología para la captación de requisitos en un proyecto de ML, y efectos de DQ sobre las salidas de los modelos de ML en un entorno industrial. Así pues, esta tesis mejora de manera integral distintos aspectos relacionados con el ML, el IoT y las instalaciones industriales. / Esta Tesis Doctoral ha sido posible gracias a la financiación recibida de diversas fuentes. En primer lugar, la beca UAIND18-08A de la Universidad de Alicante, bajo el título "Técnicas Analíticas en Sistemas IoT". El objetivo de esta beca es la realización del doctorado industrial soportado por el convenio LUCENTIALAB2-18Y, que establece el convenio de colaboración en el que la tesis está co-financiada por la Universidad de Alicante y la empresa Lucentia Lab S.L. Por otra parte, a lo largo de la tesis se ha participado en diversos proyectos, que han hecho posible el envío de artículos a diversas conferencias y revistas. Entre estos proyectos se encuentran los proyectos nacionales ECLIPSE-UA (RTI2018-094283-B-C32) y AETHER-UA (PID2020-112540RB-C43) financiados por el Ministerio de Economía y Empresa y el Ministerio de Ciencia e Innovación respectivamente, y el proyecto regional BALLADEER (PROMETEO/2021/088) financiado por la Generalitat Valenciana. Machine Learning Internet de las Cosas Calidad de los Datos Ingeniería de Requisitos Industria 4.0
3	Flood Hazard Assessment in Data-Scarce Basins : Use of alternative data and modelling techniques / Riskbedömning av översvämning i avrinningsområden med dålig datatillgång : Användning av alternativa data och modelleringsverktyg Fuentes-Andino, Diana January 2017 (has links) Flooding is of great concern world-wide, causing damage to infrastructure, property and loss of life. Low-income countries, in particular, can be negatively affected by flood events due to their inherent vulnerabilities. Moreover, data to perform studies for flood risk management in low-income regions are often scarce or lacking sufficient quality. This thesis proposes new methodologies and explores the use of unconventional sources of information in flood hazard assessment in areas where the quantity or sufficient quality of traditional hydrometrical data are lacking. One method was developed to account for errors in spatially averaged rainfall, from a sparse rain-gauge network, used as input to a rainfall-runoff model. A spatially-averaged and event-dependent rainfall depth multiplier led to improvements of the hydrographs at calibration. And by using a distribution of the multiplier, identified from previous events in the catchment, improvement in predictions could also be obtained. A second method explored the possibility of reproducing an unmeasured extreme flood event using a combination of models, post-event data, precipitation and an uncertainty-analysis framework. This combination allowed the identification of likelihood-associated parameter sets from which the flood hazard map for the extreme event could be obtained. A third and fourth study made at the regional scale explored the value of catchment similarities, and the effects of climate on the hydrological response of catchments. Flood frequency curves were estimated for 36 basins, assumed ungauged, using regional information of short flow records, and local information about the frequency of the storm. In the second regional study, hydro-climatic information provided great value to constrain predictions of series of daily flow from a hydrological model. Previously described methods, used in combination with unconventional information within an uncertainty analysis, proven to be useful for flood hazard assessment at basins with data limitations. The explored data included: post-event measurements of an extreme flood event, hydro-climate regional information and local precipitation data. The methods presented in this thesis are expected to support development of hydrological studies underpinning flood-risk reduction in data-poor areas. / Extremt höga vattenflöden ställer till stora problem i hela världen. De skadar infrastruktur och egendom och orsakar död. Framför allt kan låg- och medelinkomstländer vara väldigt sårbara för extrema flöden. I dessa länder saknas dessutom ofta data som behövs för att kunna bedöma översvämningsrisker, eller så finns bara data av dålig kvalitet. Denna avhandling föreslår nya metoder som använder okonventionella informationskällor vid bedömning av översvämningsrisker i områden där traditionella hydrologiska data saknas eller har otillräcklig kvalitet. En metod utvecklades för att ta hänsyn till fel i rumslig medelnederbörd beräknad från ett glest nät av nederbördsmätare att användas som indata i en nederbörds-avrinningsmodell. Användning av en multiplikator för medelvärdesbildad nederbörd, i tid och rum, för enskilda högflödestillfällen ledde till förbättrad modellkalibrering. Genom att använda multiplikatorfördelningar, identifierade från tidigare högflödestillfällen i avrinningsområdet, kunde också prognoser förbättras. En andra metod använde sig av möjligheten att reproducera ett extremt högflöde inom ramen för en osäkerhetsanalys med hjälp av en kombination av modeller, nederbördsdata och data som uppmätts i efterhand. Denna kombination gjorde det möjligt att identifiera parametervärdesuppsättningar med hophörande sannolikheter ur vilka det gick att erhålla en översvämningskarta för det höga flödet. En tredje och fjärde studie i regional skala utforskade värdet av likheter mellan avrinningsområden och hur områdenas hydrologiska gensvar beror av klimatet. Kurvan för kumulativa högflödesfrekvenser (flood frequency curve, FFC) kunde skattas med hjälp av lokal nederbördsinformation och regional information om korta tidsserier av vattenföring från 36 avrinningsområden som antogs sakna vattenföringsdata. I den andra regionala studien visade sig hydroklimatisk information av värde för att avgränsa godtagbara prognoser för daglig vattenföring från en hydrologisk modell. Tidigare beskrivna metoder, använda tillsammans med okonventionell information inom ramen för en osäkerhetsanalys, visade sig vara användbara för att bedöma översvämningsrisker i avrinningsområden med databegränsningar. Bland utforskade data fanns: mätningar i efterhand av ett extremt högflöde, hydroklimatisk regional information och lokala nederbördsmätningar. Metoderna i denna avhandling förväntas kunna stödja utvecklingen av hydrologiska studier av höga flöden och översvämningar i områden med bristande datatillgång. / Las inundaciones ocasionan daños a la infraestructura, propiedad y pérdida de vidas a nivel mundial. Los países en desarrollo son los más vulnerables a inundaciones, la calidad y cantidad de datos hidro-climatológicos disponibles en los mismos dificulta el desarrollo de estudios para la evaluación de riesgo a esta amenaza. Esta tesis propone métodos en la que se hace uso de fuentes de información no-convencionales para la evaluación de riesgo por inundación en regiones con datos escasos o limitados. Un método considera el error asociado a la precipitación promedio sobre cuencas en modelos lluvia-escorrentía como un factor multiplicador del histograma del evento. El uso de la precipitación promedio junto con una distribución probabilística del factor multiplicador como datos de entrada a un modelo de lluvia-escorrentía mejoraron los hidrogramas durante los periodos de calibración y predicción. Un segundo método exploró la posibilidad de reproducir un evento extremo de inundación usando una combinación de modelos hidrológicos e hidráulico, un análisis de incertidumbre, datos hidrométricos recopilados después del evento y datos de precipitación registrados durante-el-evento. Dicha combinación permitió la identificación de los parámetros de los modelos y la elaboración un mapa de amenaza por inundaciones para dicho evento. Adicionalmente, se estimaron curvas de frecuencia de inundaciones para 36 cuencas, asumidas no aforadas, mediante un método de regionalización que usa registros de caudal de corta duración disponibles en la región. Dichas curvas fueron extendidas haciendo uso de información local sobre la frecuencia de las tormentas. Se encontró que la información hidro-climatológica tiene un gran valor para reducir el rango de incertidumbre de las simulaciones de caudal diaria de un modelo hidrológico. Los métodos anteriores se usaron en combinación con información no-convencional dentro de un análisis de incertidumbre y han probado su utilidad para la evaluación de riesgo por inundaciones en cuencas con registros escasos o limitados. Los datos utilizados en esta tesis incluyen datos hidrométricos recopilados pasado el evento, registros hidro-climatológicos regionales y precipitación local. Se espera que los métodos presentados aquí contribuyan al desarrollo de estudios hidrológicos importantes para la reducción del riesgo por inundaciones en regiones con déficit de registros hidro-climatológicos. Central America floods data scarcity data quality uncertainty analysis regionalisation flood frequency analysis GLUE hydraulic modelling rainfall-runoff modeling TOPMODEL LISFLOOD-FP GRADEX index-flood Muskingum-Cunge-Todini flow routing Mellanamerika högflöde datakvalitet osäkerhetsanalys regionalisering frekvensanalys av högflöden GLUE hydraulisk modellering nederbörds-avrinningsmodeller TOPMODEL LISFLOOD-FP GRADEX indexflöde Muskingum-Cunge-Todini flödessvarstid Central América inundaciones escasez de datos calidad de los datos análisis de incertidumbre regionalización análisis de frequencia de inundación GLUE modelación hidraulica modelo de lluvia-escorrentía TOPMODEL LISFLOOD-FP GRADEX índice de inundación Oceanography, Hydrology, Water Resources Oceanografi, hydrologi, vattenresurser

1

Page generated in 0.1241 seconds