321 |
Metodologický pohled na měření (anti)imigračních postojů (kvalita měření se zaměřením na jeho ekvivalenci) / Measurement of (anti)immigration Attitudes from the Methodological Perspective. Quality of Measurement with the Special Focus on Measurement EquivalenceŠarapatková, Anna January 2019 (has links)
Opportunities that we have in today's world are sharply evolving, and the world is changing all together with these changes. This development is noticeably observed within the topic of global movement of (not only) population, which has changed fundamentally, both economically, politically and socially. Today's so much diversified form of migration, which has lost its transparency it used to has, is a very up to date and debated topic currently almost all over the world. Because of high importance of the topic "migration" it is often subject of research and number of surveys. One of the most examined area within the topic migration is attitudes of people towards immigration and immigrant, oftentimes together with investigating cause leading to particular attitude. Due to the international reach of the topic, these attitudes are often subject of cross-national research or national research, which, however, use data from international surveys. There is a clear disparity across European states in these attitudes towards immigration and, above all, the immigrants themselves. Given this nature of cross-national surveys measuring attitudes towards immigrants, it is important to focus on the measurement quality, which is becoming increasingly complex in the perspective of international research. It is...
|
322 |
Tagungsband zum 20. Interuniversitären Doktorandenseminar WirtschaftsinformatikDinter, Barbara, Frenzel, Lisa, Gluchowski, Peter 25 January 2017 (has links)
Das Interuniversitäre Doktorandenseminar Wirtschaftsinformatik ist eine regelmäßige Veranstaltung, in deren Rahmen Doktoranden der Universitäten Chemnitz, Dresden, Freiberg, Halle, Ilmenau, Jena und Leipzig ihr Promotionsprojekt präsentieren und sich den kritischen Fragen der anwesenden Professoren und Doktoranden aller beteiligten Universitäten stellen. Auf diese Weise erhalten die Promovierenden wertvolles Feedback zu Vorgehen, Methodik und inhaltlichen Aspekten ihrer Arbeit, welches sie für ihre Promotion nutzen können.
Darüber hinaus bietet das Interuniversitäre Doktorandenseminar Wirtschaftsinformatik eine Plattform für eine fachliche Auseinandersetzung mit aktuellen Themen und sich ankündigenden Trends in der Forschung der Wirtschaftsinformatik. Zudem wird ein akademischer Diskurs über die Grenzen der jeweils eigenen Schwerpunkte der Professur hinaus ermöglicht.
Das nunmehr 20. Jubiläum des Doktorandenseminars fand in Chemnitz statt. Der daraus entstandene Tagungsband enthält fünf ausgewählte Beiträge zu den Themenfeldern Service Engineering, Cloud-Computing, Geschäftsprozessmanagement, Requirements Engineering, Analytics und Datenqualität und zeigt damit anschaulich die Aktualität und Relevanz, aber auch die thematische Breite der gegenwärtigen Forschung im Bereich Wirtschaftsinformatik. / The inter-university PhD seminar Business Information Systems (“Interuniversitäres Doktorandenseminar Wirtschaftsinformatik”) is an annual one-day event which is organized by the Business Information Systems chairs of the universities of Chemnitz, Dresden, Freiberg, Halle, Ilmenau, Jena and Leipzig. It serves as a platform for PhD students to present their PhD topic and the current status of the thesis. Therefore, the seminar is a good opportunity to gain further knowledge and inspiration based on the feedback and questions of the participating professors and students.
The 20th Interuniversitäre Doktorandenseminar Wirtschaftsinformatik took place in Chemnitz in October 2016. The resulting proceedings include five selected articles within the following topic areas: service engineering, cloud computing, business process management, requirements engineering, analytics und data quality. They illustrate the relevance as well as the broad range of topics in current business information systems research.
In case of questions and comments, please use the contact details at the end of the articles.
|
323 |
Tillförlitlighet hos Big Social Data : En fallstudie om upplevd problematik kopplat till beslutfattande i en organisationskontextRangnitt, Eric, Wiljander, Louise January 2020 (has links)
Den växande globala användningen av sociala medier skapar enorma mängder social data online, kallat för Big Social Data (BSD). Tidigare forskning lyfter problem med att BSD ofta har bristande tillförlitlighet som underlag vid beslutsfattande och att det är starkt kopplat till dataoch informationskvalitet. Det finns dock en avsaknad av forskning som redogör för praktikers perspektiv på detta. Därför undersökte denna studie vad som upplevs problematiskt kring transformation av BSD till tillförlitlig information för beslutsfattande i en organisationskontext, samt hur detta skiljer sig i teori jämfört med praktik. En fallstudie gjordes av mjukvaruföretaget SAS Institute (SAS). Datainsamlingen genomfördes via intervjuer samt insamling av dokument och resultaten analyserades kvalitativt. Studien gjorde många intressanta fynd gällande upplevda problem kopplat till transformation av BSD, bl.a. hög risk för partisk data och låg analysmognad, samt flera skillnader mellan teori och praktik. Tidigare forskning gör inte heller skillnad mellan begreppen datakvalitet och informationskvalitet, vilket görs i praktiken. / The growing use of social media generates enormous amounts of online social data, called Big Social Data (BSD). Previous research highlights problems with BSD reliability related to decision making, and that reliability is strongly connected to data quality and information quality. However, there is a lack of research with a focus on practitioners’ perspectives on this matter. To address this gap, this study set out to investigate what is perceived as a problem when transforming BSD into reliable information for decision making in an organisational context, and also how this differs in theory compared with practice. A case study was conducted of the software company SAS Institute (SAS). Data collection was done through interviews and gathering of documents, and results were analysed qualitatively. The study resulted in many interesting findings regarding perceived problems connected to the transformation of BSD, e.g. high risk of biased data and low maturity regarding data analysis, as well as several differences between theory and practice. Furthermore, previous research makes no distinction between the terms data quality and information quality, but this is done in practice.
|
324 |
Facilitating mobile crowdsensing from both organizers’ and participants’ perspectives / Facilitation de la collecte participative des données mobiles (mobile crowdsensing) au point de vue des organisateurs et des participantsWang, Leye 18 May 2016 (has links)
La collecte participative des données mobiles est un nouveau paradigme dédié aux applications de détection urbaines utilisant une foule de participants munis de téléphones intelligents. Pour mener à bien les tâches de collecte participative des données mobiles, diverses préoccupations relatives aux participants et aux organisateurs doivent être soigneusement prises en considération. Pour les participants, la principale préoccupation porte sur la consommation d'énergie, le coût des données mobiles, etc. Pour les organisateurs, la qualité des données et le budget sont les deux préoccupations essentielles. Dans cette thèse, deux mécanismes de collecte participative des données mobiles sont proposés : le téléchargement montant collaboratif des données et la collecte clairsemée des données mobiles. Pour le téléchargement montant collaboratif des données, deux procédés sont proposés 1) « effSense », qui fournit la meilleure solution permettant d’économiser la consommation d'énergie aux participants ayant un débit suffisant, et de réduire le coût des communications mobiles aux participants ayant un débit limité; 2) « ecoSense », qui permet de réduire le remboursement incitatif par les organisateurs des frais associés au coût des données mobiles des participants. Dans la collecte clairsemée des données mobiles, les corrélations spatiales et temporelles entre les données détectées sont exploitées pour réduire de manière significative le nombre de tâches allouées et, par conséquent, le budget associé aux organisateurs, tout en assurant la qualité des données. De plus, l’intimité différentielle est afin de répondre au besoin de préservation de la localisation des participants / Mobile crowdsensing is a novel paradigm for urban sensing applications using a crowd of participants' sensor-equipped smartphones. To successfully complete mobile crowdsensing tasks, various concerns of participants and organizers need to be carefully considered. For participants, primary concerns include energy consumption, mobile data cost, privacy, etc. For organizers, data quality and budget are two critical concerns. In this dissertation, to address both participants' and organizers' concerns, two mobile crowdsensing mechanisms are proposed - collaborative data uploading and sparse mobile crowdsensing. In collaborative data uploading, participants help each other through opportunistic encounters and data relays in the data uploading process of crowdsensing, in order to save energy consumption, mobile data cost, etc. Specifically, two collaborative data uploading procedures are proposed (1) effSense, which helps participants with enough data plan to save energy consumption, and participants with little data plan to save mobile data cost; (2) ecoSense, which reduces organizers' incentive refund that is paid for covering participants' mobile data cost. In sparse mobile crowdsensing, spatial and temporal correlations among sensed data are leveraged to significantly reduce the number of allocated tasks thus organizers' budget, still ensuring data quality. Specifically, a sparse crowdsensing task allocation framework, CCS-TA, is implemented with compressive sensing, active learning, and Bayesian inference techniques. Furthermore, differential privacy is introduced into sparse mobile crowdsensing to address participants' location privacy concerns
|
325 |
Measuring the Utility of Synthetic Data : An Empirical Evaluation of Population Fidelity Measures as Indicators of Synthetic Data Utility in Classification Tasks / Mätning av Användbarheten hos Syntetiska Data : En Empirisk Utvärdering av Population Fidelity mätvärden som Indikatorer på Syntetiska Datas Användbarhet i KlassifikationsuppgifterFlorean, Alexander January 2024 (has links)
In the era of data-driven decision-making and innovation, synthetic data serves as a promising tool that bridges the need for vast datasets in machine learning (ML) and the imperative necessity of data privacy. By simulating real-world data while preserving privacy, synthetic data generators have become more prevalent instruments in AI and ML development. A key challenge with synthetic data lies in accurately estimating its utility. For such purpose, Population Fidelity (PF) measures have shown to be good candidates, a category of metrics that evaluates how well the synthetic data mimics the general distribution of the original data. With this setting, we aim to answer: "How well are different population fidelity measures able to indicate the utility of synthetic data for machine learning based classification models?" We designed a reusable six-step experiment framework to examine the correlation between nine PF measures and the performance of four ML for training classification models over five datasets. The six-step approach includes data preparation, training, testing on original and synthetic datasets, and PF measures computation. The study reveals non-linear relationships between the PF measures and synthetic data utility. The general analysis, meaning the monotonic relationship between the PF measure and performance over all models, yielded at most moderate correlations, where the Cluster measure showed the strongest correlation. In the more granular model-specific analysis, Random Forest showed strong correlations with three PF measures. The findings show that no PF measure shows a consistently high correlation over all models to be considered a universal estimator for model performance.This highlights the importance of context-aware application of PF measures and sets the stage for future research to expand the scope, including support for a wider range of types of data and integrating privacy evaluations in synthetic data assessment. Ultimately, this study contributes to the effective and reliable use of synthetic data, particularly in sensitive fields where data quality is vital. / I eran av datadriven beslutsfattning och innovation, fungerar syntetiska data som ett lovande verktyg som bryggar behovet av omfattande dataset inom maskininlärning (ML) och nödvändigheten för dataintegritet. Genom att simulera verklig data samtidigt som man bevarar integriteten, har generatorer av syntetiska data blivit allt vanligare verktyg inom AI och ML-utveckling. En viktig utmaning med syntetiska data är att noggrant uppskatta dess användbarhet. För detta ändamål har mått under kategorin Populations Fidelity (PF) visat sig vara goda kandidater, det är mätvärden som utvärderar hur väl syntetiska datan efterliknar den generella distributionen av den ursprungliga datan. Med detta i åtanke strävar vi att svara på följande: Hur väl kan olika population fidelity mätvärden indikera användbarheten av syntetisk data för maskininlärnings baserade klassifikationsmodeller? För att besvara frågan har vi designat ett återanvändbart sex-stegs experiment ramverk, för att undersöka korrelationen mellan nio PF-mått och prestandan hos fyra ML klassificeringsmodeller, på fem dataset. Sex-stegs strategin inkluderar datatillredning, träning, testning på både ursprungliga och syntetiska dataset samt beräkning av PF-mått. Studien avslöjar förekommandet av icke-linjära relationer mellan PF-måtten och användbarheten av syntetiska data. Den generella analysen, det vill säga den monotona relationen mellan PF-måttet och prestanda över alla modeller, visade som mest medelmåttiga korrelationer, där Cluster-måttet visade den starkaste korrelationen. I den mer detaljerade, modell-specifika analysen visade Random Forest starka korrelationer med tre PF-mått. Resultaten visar att inget PF-mått visar konsekvent hög korrelation över alla modeller för att betraktas som en universell indikator för modellprestanda. Detta understryker vikten av kontextmedveten tillämpning av PF-mått och banar väg för framtida forskning för att utöka omfånget, inklusive stöd för ett bredare utbud för data av olika typer och integrering av integritetsutvärderingar i bedömningen av syntetiska data. Därav, så bidrar denna studie till effektiv och tillförlitlig användning av syntetiska data, särskilt inom känsliga områden där datakvalitet är avgörande.
|
326 |
Diseño, construcción y evaluación de repositorios estandarizados con calidad de datos asegurada para la monitorización de la atención a la alimentación infantilGarcía de León Chocano, Ricardo 20 October 2022 (has links)
[ES] El establecimiento de la Historia Clínica Electrónica (HCE) como fuente de conocimiento en el ámbito clínico es una cuestión clave para las organizaciones sanitarias para el desarrollo de la investigación, docencia y la mejora de la calidad asistencial. El actual despliegue de los sistemas de información sanitarios supone que los datos de HCE sean una excelente fuente de datos candidata con la que generar repositorios para estos propósitos, debido a su cobertura poblacional y continuidad en el tiempo.
Para garantizar la validez y fiabilidad de la reutilización de datos de HCE para investigación y monitorización de la asistencia sanitaria, es necesario evaluar y asegurar su calidad de datos. Así como utilizar estándares de información sanitaria para dar soporte a la continuidad asistencial.
Esta tesis tiene como propósito diseñar un proceso de construcción de repositorios, estandarizados y con calidad de datos asegurada, con el que construir un repositorio de datos integrados (IDR) de alimentación infantil a partir de datos multi-fuente de HCE. El objetivo de este IDR es habilitar el re-uso de datos para la monitorización de la atención a la alimentación infantil hasta los dos años, centrado en la lactancia materna como uno de los principales determinantes de la salud materno-infantil.
Para la gestión de la calidad de datos se ha utilizado un marco conceptual basado en dimensiones de calidad de datos para una gestión de calidad de datos total del proceso. Como estándares de información sanitaria se han utilizado UNE-EN-ISO 13940 (Contsys) y UNE-EN-ISO 13606. Para la monitorización se han utilizado los indicadores definidos por la Organización Mundial de la Salud para la evaluación de estrategias internacionales de alimentación infantil como la Iniciativa para la Humanización de la Asistencia al Nacimiento y la Lactancia (IHAN).
El proceso de construcción de repositorios ha estado estrechamente relacionado con la estrategia "Hasta Que Tú Quieras (HQTQ)", desarrollada en el Área de Salud V-Altiplano del Servicio Murciano de Salud para mejorar la calidad de la atención a la alimentación al lactante. Las especificaciones y requerimientos del proceso asistencial de atención a la alimentación del lactante guiaron la definición de los modelos de información.
El proceso de construcción ha sido aplicado sobre real world data multi-fuente proveniente de la HCE del Área V-Altiplano. En concreto del sistema de información hospitalario de su hospital de referencia, Hospital Virgen del Castillo y del sistema de información de Atención Primaria de los 3 centros de salud del área, durante el periodo 2009-2018.
La aplicación de dimensiones de calidad de datos sobre procedimientos de evaluación y aseguramiento de calidad de datos, junto con el uso de conceptos de la norma Constys, han contribuido al diseño del proceso de construcción de repositorios estandarizados con calidad de datos asegurada.
La aplicación de los métodos del proceso de construcción de repositorios sobre los datos de la HCE perinatal del hospital y del seguimiento de alimentación de los centros de atención primaria han contribuido a la creación del IDR, con calidad de datos asegurada y estandarizado según la norma Contsys; así como a la estimación robusta de indicadores de alimentación infantil y la habilitación de un sistema de monitorización poblacional y continuo a partir de datos de HCE.
La experiencia de integración de los repositorios materno-infantiles del Hospital Virgen del Castillo y el Hospital 12 de Octubre de Madrid ha contribuido a la creación de un IDR estandarizado conforme a la norma UNE-EN-ISO 13606 y a una propuesta de arquetipos para integración de repositorios materno-infantiles a nivel nacional.
La información de calidad obtenida del IDR ha contribuido a la obtención del Sello de Buenas de Prácticas del Ministerio de Sanidad, Servicios Sociales e Igualdad y la ampliación a escala del modelo de información perinatal a todo el Servicio Murciano de Salu / [CA] L'establiment de la Història Clínica Electrònica (HCE) com a font de coneiximent a l'àmbit clínic és una qüestió clau per a les organitzacions sanitàries per al desenvolupament de la investigació, docència i la millora de la qualitat assistencial. L'actual desplegament dels sistemes de informació sanitaris suposa que les dades de HCE siguen una excel·lent font de informació amb la qual generar repositoris de dades per a aquests propòsits, a causa de la seua cobertura poblacional i continuïtat en el temps.
Per garantir la validesa i fiabilitat de la reutilització de dades de HCE per a investigació i monitoratge de l'assistència sanitària, és necessari avaluar i assegurar la seua qualitat . Així com utilitzar diferents estàndards d'informació sanitària per donar suport a la continuïtat assistencial.
Aquesta tesi té com a propòsit dissenyar un procés de construcció de repositoris, éstandaritzats i amb qualitat de dades assegurada, amb el qual construir un repositori de dades integrats (IDR) d'alimentació infantil a partir de dades multi-font de HCE. L'objectiu d'aquest IDR és habilitar la reutilització de dades per al monitoratge de l'atenció a l'alimentació infantil fins als dos anys, centrat en la lactància materna com un dels principals determinants de la salut matern-infantil.
Per a la gestió de la qualitat de dades s'ha utilitzat un marc conceptual basat en dimensions de qualitat de dades per a una gestió de qualitat de dades total del procés. Com a estàndards d'informació sanitària s'han utilitzat UNE-EN-ISO 13940 (Contsys) i UNE-EN-ISO 13606. Per al monitoratge s'han empleat els indicadors definits per l'Organització Mundial de la Salut per a l'avaluació d'estratègies internacionals d'alimentació infantil com la Iniciativa per a la Humanització de la Asistencia al Naixement i la Lactància (IHAN).
El procés de construcció de repositoris ha estat estretament relacionat amb l'estratègia "Hasta Que Tú Quieras (HQTQ)" desenvolupada a l'Àrea de Salut V - Altiplano del Servicio Murciano de Salud per a millorar la qualitat de l'atenció a l'alimentació al lactant. Les especificacions i requeriments del procés assistencial d'atenció a l'alimentació del lactant van guiar la definició dels models d'informació.
El procés de construcció ha sigut aplicat sobre real world data multi-font provinent de la HCE de l'Àrea de Salut V-Altiplano del Servicio Murciano de Salud. En concret del sistema d'informació hospitalari del seu hospital de referència, Hospital Virgen del Castillo i del sistema d'informació d'Atenció Primària dels tres centres de salut de l'àrea, durant el període 2009-2018.
L'aplicació de dimensions de qualitat de dades sobre procediments d'avaluació i assegurament de qualitat de dades, juntament amb l'ús de conceptes de la norma Contsys, han contribuït al disseny del procés de construcció de repositoris estandarditzats amb qualitat de dades assegurada.
L'aplicació dels mètodes del procés de construcció de repositoris sobre les dades de la HCE perinatal de l'hospital i del seguiment de l'alimentació infantil d'atenció primària han contribuït a la creació del IDR, amb qualitat de dades assegurada i estandarditzat segons la norma Contsys. Així com a l'estimació robusta d'indicadors d'alimentació infantil i l'habilitació d'un sistema de monitoratge poblacional i continu a partir de dades de HCE.
L'experiència d'integració dels repositoris matern-infantils de l'Hospital Virgen del Castillo i l'Hospital 12 d'Octubre de Madrid ha contribuït a la creació d'un IDR estandarditzat conforme a la norma UNE-EN ISO 13606 i a una proposta d'arquetips per a integració de repositoris matern-infantils a nivell nacional.
La informació de qualitat obtinguda del IDR ha contribuït a l'obtenció del Segell de Bones de Pràctiques del Ministeri de Sanitat, Serveis Socials i Igualtat i al "scaling-up" del model d'informació perinatal a tot el Servei Murcià de Salut. / [EN] The establishment of the Electronic Health Record (EHR) as a source of knowledge in the clinical setting is a key issue for healthcare organizations for the development of research, teaching and the improvement of healthcare quality. The current deployment of health information systems means that EHR data are an excellent candidate data source with which to generate repositories for these purposes, due to their population coverage and continuity over time.
To ensure the validity and reliability of the reuse of EHR data for research and healthcare monitoring, it is necessary to assess and assure its data quality. As well as using health information standards to support continuity of care.
The purpose of this thesis is to design a standardized and DQ assured repository construction process to build an Integrated Data Repository (IDR) for infant feeding from multi-source EHR data. The goal of this IDR is to enable the reuse of data for monitoring infant feeding care up to two years of age, focusing on breastfeeding as one of the main determinants of maternal and child health.
For DQ management, a conceptual framework based on DQ dimensions has been used for a total data quality management of the process. UNE-EN-ISO 13940 (Contsys) and UNE-EN-ISO 13606 have been used as health information standards. The "Indicators for assessing infant and young child feeding practices" (IYCF), defined by the World Health Organization were used for monitoring. This set of indicators is the current reference for the evaluation of international infant feeding strategies such as the Baby Friendly Hospital Initiative (BFHI).
The construction process of repositories has been closely related to the "Hasta Que Tú Quieras (HQTQ)" strategy, developed in the Health Area V-Altiplano of the Servicio Murciano de Salud to improve the quality of care for infant feeding. The specifications and requirements of the infant feeding care process guided the definition of information models.
The construction process has been applied on real world multi-source data from the EHR of the Health Area V-Altiplano. Specifically, from the hospital information system of its reference hospital, Hospital Virgen del Castillo, and from the primary care information system of the 3 health centers of the area, during the period 2009-2018.
The application of DQ dimensions on DQ assessment and assurance procedures, together with the use of concepts of the Contsys standard, have contributed to the design of the process of building standardized and DQ assured repositories.
The application of the methods of the repository construction process on perinatal EHR data from the hospital along with the EHR data from the area's primary care information system for monitoring infant feeding has contributed to the creation of the IDR, with DQ assured and standardized according to the Contsys standard; As well as for the robust estimation of infant feeding indicators and the implementation of a population-based and continuous monitoring system based on EHR data.
The experience of integrating the mother-child repositories of the Virgen del Castillo Hospital and the 12 de Octubre Hospital in Madrid has contributed to the creation of a standardized IDR in accordance with the UNE-EN-ISO 13606 standard and a proposal of archetypes for the integration of mother-child repositories at the national level.
The quality information obtained from the IDR has contributed to obtaining the Seal of Good Practices of the Ministry of Health, Social Services and Equality and to the scaling-up of the perinatal information model to the whole Servicio Murciano de Salud. / García De León Chocano, R. (2022). Diseño, construcción y evaluación de repositorios estandarizados con calidad de datos asegurada para la monitorización de la atención a la alimentación infantil [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/188372
|
327 |
Four essays on German stocksSchmidt, Martin Hermann 01 March 2016 (has links)
Diese Dissertation zielt darauf ab, ein besseres Verständnis für Anomalien und Insiderhandel zu schaffen, sowie die Verfügbarkeit von qualitativ hochwertigen Daten für den deutschen Aktienmarkt zu verbessern. Der erste Aufsatz beinhaltet eine verzerrungsfreie Zeitreihe von monatlichen Renditen deutscher Aktien für die Jahre 1954 bis 2013, die auf der Basis stabiler Regeln berechnet und gut dokumentiert ist. Im Weiteren enthält der Aufsatz eine detaillierte Beschreibung des deutschen Aktienmarktes und dessen Besonderheiten, insbesondere im Vergleich zu den USA. Der zweite Aufsatz zeigt am Beispiel des Fama/French Drei-Faktoren-Modells die Probleme auf, die Anbieter und Nutzer von Faktorendaten haben, die sich nicht auf die USA beziehen. Die empirische Analyse von sieben Faktorensets für Deutschland zeigt, dass die Übernahme von Faktormodellen in einen anderen Kapitalmarkt eine komplexe Thematik ist. Der Aufsatz gibt Anregungen für Nutzer und Anbieter von Faktorensets und zeigt, wie die Wahl des Faktorensets das Ergebnis einer Studie beeinflussen kann. Im dritten Aufsatz werden verschiedene zyklische und antizyklische Handelsstrategien hinsichtlich ihrer Performance im deutschen Aktienmarkt untersucht. Von den untersuchten Strategien erscheint nur Momentum konsequent abnormale Renditen zu erzielen, dies auch nach Transaktionskosten. Die vierte Arbeit untersucht öffentlich bekannt gegebene Aktientransaktionen von Insidern börsennotierter deutscher Unternehmen. Der Aufsatz zeigt, dass Insider von TecDAX-Unternehmen und ihre Imitatoren hohe und statistisch signifikante abnormale Renditen erzielen. Insgesamt zeigt die Dissertation, dass methodische Variationen, die Verwendung verschiedener Untersuchungsdesigns, die Datenqualität und die Sorgfalt beim Erstellen von empirischen Analysen zur Beurteilung der Robustheit und der Stabilität der Ergebnisse unerlässlich sind. Der deutsche Aktienmarkt scheint effizienter zu sein als bisherigere Studien typischerweise nahelegen. / This doctoral thesis aims to contribute to a better understanding of stock market anomalies and insider trading as well as to improve the availability of high quality data for the German stock market. The first paper provides a sixty-year time series of monthly returns on German stocks that is constructed on the basis of stable rules, is well documented, includes all return components, and is free of biases. The paper also contains a detailed description of the German stock market, its peculiarities, regulation and differences as compared to the U.S. The second paper uses the Fama/French three-factor model as an example to point out the problems that providers and users of non-U.S factor data sets face. The empirical analysis of seven different factor data sets available for Germany shows that exporting a specific factor model from the U.S. to another capital market is neither an easy nor well-defined task. The paper gives suggestions to users and creators of factor sets and shows how the choice of a factor set affects the result of an empirical study. The third paper provides evidence on how various contrarian, momentum and seasonality strategies perform in the German stock market. Among these strategies, only momentum investing appears to earn persistently non-zero returns, even after transaction costs. The fourth paper studies publicly disclosed stock transactions by insiders of listed German firms. The paper finds that insiders of TecDAX firms earn large and statistically significant abnormal returns net of transaction costs; for DAX insiders they are indistinguishable from zero. Overall, this thesis illustrates that methodological variations, the use of different specifications, data quality and care when preparing empirical analyses is essential in the assessment of the robustness and stability of results. In sum, the German stock market appears to be more efficient than previous studies have typically suggested.
|
328 |
Distribution multi-contenus sur Internet / Content distribution over InternetMnie Filali, Imane 27 September 2016 (has links)
Dans cette thèse, nous nous sommes intéressés aux protocoles pair-à-pair (P2P), qui représentent une solution prometteuse pour la diffusion et le partage de données à faible coût sur Internet. Nous avons mené, dans un premier temps, une étude comportementale de différents protocoles P2P pour le partage de fichier (distribution de contenus sans contrainte de temps) puis le live. Dans la première étude centréesur le partage de fichier, nous avons montré l’impact d’Hadopi sur le comportement des utilisateurs et discuté l’efficacité des protocoles en fonction du contenu et l’efficacité protocolaire, en se basant sur les choix des utilisateurs. BitTorrent s’est nettement démarqué au cours de cette étude, notamment pour les grands contenus. En ce qui concerne le live, nous nous sommes intéressés à la qualité de servicedu réseau de distribution live Sopcast, car plus de 60% des événements live diffusés en P2P le sont sur ce réseau. Notre analyse approfondie de ces deux modes de distribution nous a fait nous recentrer sur BitTorrent, qui est à la base de tous les protocoles P2P Live, et est efficace en partage de fichier et complètement open source. Dans la seconde partie de la thèse, nous avons proposé et implémenté dansun environnement contrôlé un nouveau protocole sur la base de BitTorrent avec des mécanismes protocolaires impliquant tous les pairs dans la gestion du réseau. Ces nouveaux mécanismes permettent d’augmenter l’efficacité du protocole via une meilleure diffusion, tant pour le live que le partage de fichier, de métadonnées (la pièce la plus rare) et via une méthode dite de push, par laquelle un client va envoyer du contenu aux pairs les plus dans le besoin / In this study, we focused on peer-to-peer protocols (P2P), which represent a promising solution for data dissemination and content delivery at low-cost in the Internet. We performed, initially, a behavioral study of various P2P protocols for file sharing (content distribution without time constraint) and live streaming. Concerning file sharing, we have shown the impact of Hadopi on users’ behavior and discussed the effectiveness of protocols according to content type, based on users’ choice. BitTorrent appeared as the most efficient approach during our study, especially when it comes to large content. As for streaming, we studied the quality of service of Sopcast, a live distribution network that accounts for more than 60% of P2P broadcast live events. Our in-depth analysis of these two distributionmodes led us to focus on the BitTorrent protocol because of its proven efficiency in file sharing and the fact that it is open source. In the second part of the thesis, we proposed and implemented a new protocol based on BitTorrent, in a controlled environment. The modifications that we proposed allow to increase the efficiency of the protocol through improved dissemination of metadata (the rarest piece), both for live and file sharing. An enhanced version is introduced with a push method, where nodes that lag behind receive an extra service so as to improve the overall performance
|
329 |
Robustness of Machine Learning algorithms applied to gas turbines / Robusthet av maskininlärningsalgoritmer i gasturbinerCardenas Meza, Andres Felipe January 2024 (has links)
This thesis demonstrates the successful development of a software sensor for Siemens Energy's SGT-700 gas turbines using machine learning algorithms. Our goal was to enhance the robustness of measurements and redundancies, enabling early detection of sensor or turbine malfunctions and contributing to predictive maintenance methodologies. The research is based on a real-world case study, implementing the Cross Industry Standard Process for Data Mining (CRISP DM) methodology in an industrial setting. The thesis details the process from dataset preparation and data exploration to algorithm development and evaluation, providing a comprehensive view of the development process. This work is a step towards integrating machine learning into gas turbine systems. The data preparation process highlights the challenges that arise in the industrial application of data-driven methodologies due to inevitable data quality issues. It provides insight into potential future improvements, such as the constraint programming approach used for dataset construction in this thesis, which remains a valuable tool for future research. The range of algorithms proposed for the software sensor's development spans from basic to more complex methods, including shallow networks, ensemble methods and recurrent neural networks. Our findings explore the limitations and potential of the proposed algorithms, providing valuable insights into the practical application of machine learning in gas turbines. This includes assessing the reliability of these solutions, their role in monitoring machine health over time, and the importance of clean, usable data in driving accurate and satisfactory estimates of different variables in gas turbines. The research underscores that, while replacing a physical sensor with a software sensor is not yet feasible, integrating these solutions into gas turbine systems for health monitoring is indeed possible. This work lays the groundwork for future advancements and discoveries in the field. / Denna avhandling dokumenterar den framgångsrika utvecklingen av en mjukvarusensor för Siemens Energy's SGT-700 gasturbiner med hjälp av maskininlärningsalgoritmer. Vårt mål var att öka mätkvaliten samt införa redundans, vilket möjliggör tidig upptäckt av sensor- eller turbinfel och bidrar till utvecklingen av prediktiv underhållsmetodik. Forskningen baseras på en verklig fallstudie, implementerad enligt Cross Industry Standard Process for Data Mining-metodiken i en industriell miljö. Avhandligen beskriver processen från datamängdsförberedelse och datautforskning till utveckling och utvärdering av algoritmer, vilket ger en heltäckande bild av utvecklingsprocessen. Detta arbete är ett steg mot att integrera maskininlärning i gasturbinssystem. Dataförberedelsesprocessen belyser de utmaningar som uppstår vid industriell tillämpning av datadrivna metoder på grund av oundvikliga datakvalitetsproblem. Det ger insikt i potentiella framtida förbättringar, såsom den begränsningsprogrammeringsansats som används för datamängdskonstruktion i denna avhandling, vilket förblir ett värdefullt verktyg för framtida forskning. Utvecklingen av mjukvarusensorn sträcker sig från grundläggande till mer komplexa metoder, inklusive ytliga nätverk, ensemblemetoder och återkommande neurala nätverk. Våra resultat utforskar begränsningarna och potentialen hos de föreslagna algoritmerna och ger värdefulla insikter i den praktiska tillämpningen av maskininlärning i gasturbiner. Detta inkluderar att bedöma tillförlitligheten hos dessa lösningar, deras roll i övervakning av maskinhälsa över tid och vikten av ren, användbar data för att generera korrekta och tillfredsställande uppskattningar av olika variabler i gasturbiner. Forskningen understryker att, medan det ännu inte är genomförbart att ersätta en fysisk sensor med en mjukvarusensor, är det verkligen möjligt att integrera dessa lösningar i gasturbinssystem för tillståndsövervakning. Detta arbete lägger grunden för vidare studier och upptäckter inom området. / Esta tesis demuestra el exitoso desarrollo de un sensor basado en software para las turbinas de gas SGT-700 de Siemens Energy utilizando algoritmos de aprendizaje automático. Esto con el objetivo de contribuir a las metodologías de mantenimiento predictivo. La investigación se basa en un estudio industrial que implementa la metodología de Proceso Estándar de la Industria para la Minería de Datos, cuyo acrónimo en inglés CRISP-DM. La tesis detalla el proceso desde la preparación del 'dataset', la exploración de datos hasta el desarrollo y evaluación de algoritmos, proporcionando una visión holistica del proceso de desarrollo. Este trabajo representa un paso hacia la integración del aprendizaje automático en turbinas de gas. Nuestros hallazgos exploran las limitaciones y el potencial de los algoritmos propuestos, proporcionando un analisis sobre la aplicación práctica del aprendizaje automático en turbinas de gas. Esto incluye evaluar la confiabilidad de estas soluciones, su papel en la monitorización de la salud de la máquina a lo largo del tiempo, y la importancia de los datos limpios y utilizables para impulsar estimaciones precisas y satisfactorias de diferentes variables en las turbinas de gas. La investigación sugiere que, aunque reemplazar un sensor físico con un sensor basado en aprendizaje automatico aún no es factible, sí es posible integrar estas soluciones en los sistemas de turbinas de gas para monitorear del estado de la maquina.
|
330 |
Probabilistic methods for multi-source and temporal biomedical data quality assessmentSáez Silvestre, Carlos 05 April 2016 (has links)
[EN] Nowadays, biomedical research and decision making depend to a great extent on the data stored in information systems. As a consequence, a lack of data quality (DQ) may lead to suboptimal decisions, or hinder the derived research processes and outcomes. This thesis aims to the research and development of methods for assessing two DQ problems of special importance in Big Data and large-scale repositories, based on multi-institutional, cross-border infrastructures, and acquired during long periods of time: the variability of data probability distributions (PDFs) among different data sources-multi-source variability-and the variability of data PDFs over time-temporal variability.
Variability in PDFs may be caused by differences in data acquisition methods, protocols or health care policies; systematic or random errors during data input and management; demographic differences in populations; or even falsified data. To date, these issues have received little attention as DQ problems nor count with adequate assessment methods. The developed methods aim to measure, detect and characterize variability dealing with multi-type, multivariate, multi-modal data, and not affected by large sample sizes. To this end, we defined an Information Theory and Geometry probabilistic framework based on the inference of non-parametric statistical manifolds from the normalized distances of PDFs among data sources and over time. Based on this, a number of contributions have been generated.
For the multi-source variability assessment we have designed two metrics: the Global Probabilistic Deviation, which measures the degree of global variability among the PDFs of multiple sources-equivalent to the standard deviation among PDFs; and the Source Probabilistic Outlyingness, which measures the dissimilarity of the PDF of a single data source to a global latent average. They are based on the construction of a simplex geometrical figure (the maximum-dimensional statistical manifold) using the distances among sources, and complemented by the Multi-Source Variability plot, an exploratory visualization of that simplex which permits detecting grouping patterns among sources.
The temporal variability method provides two main tools: the Information Geometric Temporal plot, an exploratory visualization of the temporal evolution of PDFs based on the projection of the statistical manifold from temporal batches; and the PDF Statistical Process Control, a monitoring and automatic change detection algorithm for PDFs.
The methods have been applied to repositories in real case studies, including the Public Health Mortality and Cancer Registries of the Region of Valencia, Spain; the UCI Heart Disease; the United States NHDS; and Spanish Breast Cancer and an In-Vitro Fertilization datasets. The methods permitted discovering several findings such as partitions of the repositories in probabilistically separated temporal subgroups, punctual temporal anomalies due to anomalous data, and outlying and clustered data sources due to differences in populations or in practices.
A software toolbox including the methods and the automated generation of DQ reports was developed. Finally, we defined the theoretical basis of a biomedical DQ evaluation framework, which have been used in the construction of quality assured infant feeding repositories, in the contextualization of data for their reuse in Clinical Decision Support Systems using an HL7-CDA wrapper; and in an on-line service for the DQ evaluation and rating of biomedical data repositories.
The results of this thesis have been published in eight scientific contributions, including top-ranked journals and conferences. One of the journal publications was selected by the IMIA as one of the best of Health Information Systems in 2013. Additionally, the results have contributed to several research projects, and have leaded the way to the industrialization of the developed methods and approaches for the audit and control of biomedical DQ. / [ES] Actualmente, la investigación biomédica y toma de decisiones dependen en gran medida de los datos almacenados en los sistemas de información. En consecuencia, una falta de calidad de datos (CD) puede dar lugar a decisiones sub-óptimas o dificultar los procesos y resultados de las investigaciones derivadas. Esta tesis tiene como propósito la investigación y desarrollo de métodos para evaluar dos problemas especialmente importantes en repositorios de datos masivos (Big Data), basados en infraestructuras multi-céntricas, adquiridos durante largos periodos de tiempo: la variabilidad de las distribuciones de probabilidad (DPs) de los datos entre diferentes fuentes o sitios-variabilidad multi-fuente-y la variabilidad de las distribuciones de probabilidad de los datos a lo largo del tiempo-variabilidad temporal.
La variabilidad en DPs puede estar causada por diferencias en los métodos de adquisición, protocolos o políticas de atención; errores sistemáticos o aleatorios en la entrada o gestión de datos; diferencias demográficas en poblaciones; o incluso por datos falsificados. Esta tesis aporta métodos para detectar, medir y caracterizar dicha variabilidad, tratando con datos multi-tipo, multivariantes y multi-modales, y sin ser afectados por tamaños muestrales grandes. Para ello, hemos definido un marco de Teoría y Geometría de la Información basado en la inferencia de variedades de Riemann no-paramétricas a partir de distancias normalizadas entre las PDs de varias fuentes de datos o a lo largo del tiempo. En consecuencia, se han aportado las siguientes contribuciones:
Para evaluar la variabilidad multi-fuente se han definido dos métricas: la Global Probabilistic Deviation, la cual mide la variabilidad global entre las PDs de varias fuentes-equivalente a la desviación estándar entre PDs; y la Source Probabilistic Outlyingness, la cual mide la disimilaridad entre la DP de una fuente y un promedio global latente. Éstas se basan en un simplex construido mediante las distancias entre las PDs de las fuentes. En base a éste, se ha definido el Multi-Source Variability plot, visualización que permite detectar patrones de agrupamiento entre fuentes.
El método de variabilidad temporal proporciona dos herramientas: el Information Geometric Temporal plot, visualización exploratoria de la evolución temporal de las PDs basada en la la variedad estadística de los lotes temporales; y el Control de Procesos Estadístico de PDs, algoritmo para la monitorización y detección automática de cambios en PDs.
Los métodos han sido aplicados a casos de estudio reales, incluyendo: los Registros de Salud Pública de Mortalidad y Cáncer de la Comunidad Valenciana; los repositorios de enfermedades del corazón de UCI y NHDS de los Estados Unidos; y repositorios españoles de Cáncer de Mama y Fecundación In-Vitro. Los métodos detectaron hallazgos como particiones de repositorios en subgrupos probabilísticos temporales, anomalías temporales puntuales, y fuentes de datos agrupadas por diferencias en poblaciones y en prácticas.
Se han desarrollado herramientas software incluyendo los métodos y la generación automática de informes. Finalmente, se ha definido la base teórica de un marco de CD biomédicos, el cual ha sido utilizado en la construcción de repositorios de calidad para la alimentación del lactante, en la contextualización de datos para el reuso en Sistemas de Ayuda a la Decisión Médica usando un wrapper HL7-CDA, y en un servicio on-line para la evaluación y clasificación de la CD de repositorios biomédicos.
Los resultados de esta tesis han sido publicados en ocho contribuciones científicas (revistas indexadas y artículos en congresos), una de ellas seleccionada por la IMIA como una de las mejores publicaciones en Sistemas de Información de Salud en 2013. Los resultados han contribuido en varios proyectos de investigación, y facilitado los primeros pasos hacia la industrialización de las tecnologías / [CA] Actualment, la investigació biomèdica i presa de decisions depenen en gran mesura de les dades emmagatzemades en els sistemes d'informació. En conseqüència, una manca en la qualitat de les dades (QD) pot donar lloc a decisions sub-òptimes o dificultar els processos i resultats de les investigacions derivades. Aquesta tesi té com a propòsit la investigació i desenvolupament de mètodes per avaluar dos problemes especialment importants en repositoris de dades massius (Big Data) basats en infraestructures multi-institucionals o transfrontereres, adquirits durant llargs períodes de temps: la variabilitat de les distribucions de probabilitat (DPs) de les dades entre diferents fonts o llocs-variabilitat multi-font-i la variabilitat de les distribucions de probabilitat de les dades al llarg del temps-variabilitat temporal.
La variabilitat en DPs pot estar causada per diferències en els mètodes d'adquisició, protocols o polítiques d'atenció; errors sistemàtics o aleatoris durant l'entrada o gestió de dades; diferències demogràfiques en les poblacions; o fins i tot per dades falsificades. Aquesta tesi aporta mètodes per detectar, mesurar i caracteritzar aquesta variabilitat, tractant amb dades multi-tipus, multivariants i multi-modals, i no sent afectats per mides mostrals grans. Per a això, hem definit un marc de Teoria i Geometria de la Informació basat en la inferència de varietats de Riemann no-paramètriques a partir de distàncies normalitzades entre les DPs de diverses fonts de dades o al llarg del temps. En conseqüència s'han aportat les següents contribucions:
Per avaluar la variabilitat multi-font s'han definit dos mètriques: la Global Probabilistic Deviation, la qual mesura la variabilitat global entre les DPs de les diferents fonts-equivalent a la desviació estàndard entre DPs; i la Source Probabilistic Outlyingness, la qual mesura la dissimilaritat entre la DP d'una font de dades donada i una mitjana global latent. Aquestes estan basades en la construcció d'un simplex mitjançant les distàncies en les DPs entre fonts. Basat en aquest, s'ha definit el Multi-Source Variability plot, una visualització que permet detectar patrons d'agrupament entre fonts.
El mètode de variabilitat temporal proporciona dues eines: l'Information Geometric Temporal plot, visualització exploratòria de l'evolució temporal de les distribucions de dades basada en la varietat estadística dels lots temporals; i el Statistical Process Control de DPs, algoritme per al monitoratge i detecció automàtica de canvis en les DPs de dades.
Els mètodes han estat aplicats en repositoris de casos d'estudi reals, incloent: els Registres de Salut Pública de Mortalitat i Càncer de la Comunitat Valenciana; els repositoris de malalties del cor de UCI i NHDS dels Estats Units; i repositoris espanyols de Càncer de Mama i Fecundació In-Vitro. Els mètodes han detectat troballes com particions dels repositoris en subgrups probabilístics temporals, anomalies temporals puntuals, i fonts de dades anòmales i agrupades a causa de diferències en poblacions i en les pràctiques.
S'han desenvolupat eines programari incloent els mètodes i la generació automàtica d'informes. Finalment, s'ha definit la base teòrica d'un marc de QD biomèdiques, el qual ha estat utilitzat en la construcció de repositoris de qualitat per l'alimentació del lactant, la contextualització de dades per a la reutilització en Sistemes d'Ajuda a la Decisió Mèdica usant un wrapper HL7-CDA, i en un servei on-line per a l'avaluació i classificació de la QD de repositoris biomèdics.
Els resultats d'aquesta tesi han estat publicats en vuit contribucions científiques (revistes indexades i en articles en congressos), una de elles seleccionada per la IMIA com una de les millors publicacions en Sistemes d'Informació de Salut en 2013. Els resultats han contribuït en diversos projectes d'investigació, i han facilitat la industrialització de les tecnologies d / Sáez Silvestre, C. (2016). Probabilistic methods for multi-source and temporal biomedical data quality assessment [Tesis doctoral]. Editorial Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/62188 / Premiado
|
Page generated in 0.096 seconds