• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 591
  • 119
  • 109
  • 75
  • 40
  • 40
  • 27
  • 22
  • 19
  • 11
  • 8
  • 7
  • 6
  • 6
  • 5
  • Tagged with
  • 1226
  • 1226
  • 181
  • 170
  • 163
  • 156
  • 150
  • 150
  • 149
  • 129
  • 112
  • 110
  • 110
  • 109
  • 108
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
351

Digital närvaro vs. Personlig integritet : En studie om Meta-nätverkets användare / Digital presence vs. Personal integrity : A study about the users of the Meta network

Havstam Blomdahl, Edla January 2022 (has links)
Meta-nätverket (tidigare kallat Facebook) är ett av de nätverk som har gjort det till sitt levebröd att samla in användardata för att sedan kunna använda dessa för att fylla sina annonsplatser med annonser som är relevanta för varje specifik användare. Användarnas integritet via Meta-nätverket och liknande plattformar har ifrågasatts och företaget Apple har nu utvecklat en datainsamlingspop-up som heter App Tracking Transparency (ATT). ATT har gjort det möjligt för användarna att blockera applikationer från att samla in data från webbsidor och applikationer ägda av andra företag, vilket har lett till stora förluster för Meta som håller på med denna typ av datainsamling. Syftet med denna studie var därför att undersöka hur svenska användare ställer sig till sin integritet online och då mer specifikt via Meta-nätverkets applikationer. Detta genom att titta närmare på vilken data de är villiga att dela med sig av, deras agerande mot ATT och liknande verktyg, synen på Metas datainsamling samt vad som är viktigast – deras integritet online eller sin digitala närvaro. Denna studie har genomförts som en enkätundersökning och har publicerats i Meta-applikationen Facebook. Studien visade att användarna delar med sig av mer data än de är villiga till, klickar sig snabbt förbi datainsamlingspop-ups utan att göra aktiva val, ser negativt på Meta-nätverkets datainsamling och värderar sin digitala närvaro högre än sin integritet online. Slutsatsen blev därför att användarna har ett behov av stöd i form av tydlighet och information om hur och var ens användardata används samt bättre datainsamlingspop-ups designade efter användarnas beteendemönster. / The Meta network (formerly known as Facebook) is one of the networks that have made it their livelihood to collect user data with the goal to analyze and utilize it for marketing purposes. As a result, the ads can now be relevant to each specific user. The user’s integrity through the Meta network and other similar platforms have been questioned and the company Apple have now developed a data collection pop up called App Tracking Transparency (ATT). ATT have made it possible for the user to block certain applications from gathering data from applications owned by other companies, which have led to great losses for Meta since they’re practicing this type of data collection. The purpose of this study was therefore to investigate how Swedish users view their privacy online, more specifically, via the Meta network's applications. This was made possible through looking closely at what data they are willing to share, their actions towards ATT and similar tools, the view of Meta's data collection and lastly a look at what is most important - their privacy online or their digital presence. The study has been executed through a survey that’ve been published in Metas application Facebook. The study showed that the users share more data that they’re comfortable with, quickly click past the data collection pop ups without making an active choice, views the Meta network's data collection negatively and values their digital presence higher than their online integrity. The conclusion of the study was therefore that the users have a need for support in the form of clarity and information on how and where their user data is used as well as better data collection pop-ups designed according to users' behavioral patterns.
352

Evaluating machine learning methods for detecting sleep arousal / Evaluering av maskininlärningsmetoder för detektion av sömnstörningar

Ivarsson, Anton, Stachowicz, Jacob January 2019 (has links)
Sleep arousal is a phenomenon that affects the sleep of a large amount of people. The process of predicting and classifying arousal events is done manually with the aid of certified technologists, although some research has been done on automation using Artificial Neural Networks (ANN). This study explored how a Support Vector Machine performed(SVM) compared to an ANN on this task. Polysomnography (PSG) is a sort of sleep study which produces the data that is used in classifying sleep disorders. The PSG-data used in this thesis consists of 13 wave forms sampled at or resampled at 200Hz. There were samples from 994 patients totalling approximately 6.98 1010 data points, processing this amount of data is time consuming and presents a challenge. 2000 points of each signal was used in the construction of the data set used for the models. Extracted features included: Median, Max, Min, Skewness, Kurtosis, Power of EEG-band frequencies and more. Recursive feature elimination was used in order to select the best amount of extracted features. The extracted data set was used to train two ”out of the box” classifiers and due to memory issues the testing had to be split in four batches. When taking the mean of the four tests, the SVM scored ROC AUC of 0,575 and the ANN 0.569 respectively. As the difference in the two results was very modest it was not possible to conclude that either model was better suited for the task at hand. It could however be concluded that SVM can perform as well as ANN on PSG-data. More work has to bee done on feature extraction, feature selection and the tuning of the models for PSG-data to conclude anything else. Future thesis work could include research questions as ”Which features performs best for a SVM in the prediction of Sleep arousals on PSG-data” or ”What feature selection technique performs best for a SVM in the prediction of Sleep arousals on PSG-data”, etc. / Sömnstörningar är en samling hälsotillstånd som påverkar sömnkvaliteten hos en stor mängd människor. Ett exempel på en sömnstörning är sömnapne. Detektion av dessa händelser är idag en manuell uppgift utförd av certifierade teknologer, det har dock på senare tid gjorts studier som visar att Artificella Neurala Nätverk (ANN) klarar att detektera händelserna med stor träffsäkerhet. Denna studie undersöker hur väl en Support Vector Machine (SVM) kan detektera dessa händelser jämfört med en ANN. Datat som används för att klassificera sömnstörningar kommer från en typ av sömnstudie kallad polysomnografi (PSG). Den PSG-data som används i denna avhandling består av 13 vågformer där 12 spelats in i 200Hz och en rekonstruerats till 200Hz. Datan som används i denna avhandling innehåller inspelningar från 994 patienter, vilket ger totalt ungefär·6.98 1010 datapunkter. Att behandla en så stor mängd data var en utmaning. 2000 punkter från vare vågform användes vid konstruktionen av det dataset som användes för modellerna. De attribut som extraherades innehöll bland annat: Median, Max, Min, Skewness, Kurtosis, amplitud av EEG-bandfrekvenser m.m. Metoden Recursive Feature Elimination användes för att välja den optimala antalet av de bästa attributen. Det extraherade datasetet användes sedan för att träna två standard-konfigurerade modeller, en SVM och en ANN. På grund av en begräning av arbetsminne så var vi tvungna att dela upp träningen och testandet i fyra segment. Medelvärdet av de fyra testen blev en ROC AUC på 0,575 för en SVM, respektive 0,569 för ANN. Eftersom skillnaden i de två resultaten var väldigt marginella kunde vi inte dra slutsatsen att endera modellen var bättre lämpad för uppgiften till hands. Vi kan dock dra slutsatsen att en SVM kan prestera lika väl som ANN på PSG-data utan konfiguration. Mer arbete krävs inom extraheringen av attributen, attribut-eliminationen och justering av modellerna. Framtida avhandlingar skulle kunna göras med frågeställningarna: “Vilka attributer fungerar bäst för en SVM inom detektionen av sömnstörningar på PSG-data” eller ”Vilken teknik för attribut-elimination fungerar bäst för en SVM inom detektionen av sömnstörningar på PSG-data”, med mera.
353

Big-Data Solutions for Manufacturing Health Monitoring and Log Analytics

Tiede, David 11 November 2022 (has links)
Modern semiconductor manufacturing is a complex process with a multitude of software applications. This application landscape has to be constantly monitored, since the communication and access patterns provide important insights. Because of the high event rates of the equipment log data stream in modern factories, big-data tools are required for scalable state and history analytics. The choice of suitable big-data solutions and their technical realization remains a challenging task. This thesis compares big-data architectures and discovers solutions for log-data ingest, enrichment, analytics and visualization. Based on the use cases and requirements of developers working in this field, a comparison of a custom assembled stack and a complete solution is made. Since the complete stack is a preferable solution, Datadog, Grafana Loki and the Elastic 8 Stack are selected for a more detailed study. These three systems are implemented and compared based on the requirements. All three systems are well suited for big-data logging and fulfill most of the requirements, but show different capabilities when implemented and used.:1 Introduction 1.1 Motivation 1.2 Structure 2 Fundamentals and Prerequisites 2.1 Logging 2.1.1 Log level 2.1.2 CSFW log 2.1.3 SECS log 2.2 Existing system and data 2.2.1 Production process 2.2.2 Log data in numbers 2.3 Requirements 2.3.1 Functional requirements 2.3.2 System requirements 2.3.3 Quality requirements 2.4 Use Cases 2.4.1 Finding specific communication sequence 2.4.2 Watching system changes 2.4.3 Comparison with expected production path 2.4.4 Enrichment with metadata 2.4.5 Decoupled log analysis 3 State of the Art and Potential Software Stacks 3.1 State of the art software stacks 3.1.1 IoT flow monitoring system 3.1.2 Big-Data IoT monitoring system 3.1.3 IoT Cloud Computing Stack 3.1.4 Big-Data Logging Architecture 3.1.5 IoT Energy Conservation System 3.1.6 Similarities of the architectures 3.2 Selection of software stack 3.2.1 Components for one layer 3.2.2 Software solutions for the stack 4 Analysis and Implementation 4.1 Full stack vs. a custom assembled stack 4.1.1 Drawbacks of a custom assembled stack 4.1.2 Advantages of a complete solution 4.1.3 Exclusion of a custom assembled stack 4.2 Selection of full stack solutions 4.2.1 Elastic vs. Amazon 4.2.2 Comparison of Cloud-Only-Solutions 4.2.3 Comparison of On-Premise-Solutions 4.3 Implementation of selected solutions 4.3.1 Datadog 4.3.2 Grafana Loki Stack 4.3.3 Elastic 8 Stack 5 Comparison 5.1 Comparison of components 5.1.1 Collection 5.1.2 Analysis 5.1.3 Visualization 5.2 Comparison of requirements 5.2.1 Functional requirements 5.2.2 System requirements 5.2.3 Quality requirements 5.3 Results 6 Conclusion and Future Work 6.1 Conclusion 6.2 Future Work / Die moderne Halbleiterfertigung ist ein komplexer Prozess mit einer Vielzahl von Softwareanwendungen. Diese Anwendungslandschaft muss ständig überwacht werden, da die Kommunikations- und Zugriffsmuster wichtige Erkenntnisse liefern. Aufgrund der hohen Ereignisraten des Logdatenstroms der Maschinen in modernen Fabriken werden Big-Data-Tools für skalierbare Zustands- und Verlaufsanalysen benötigt. Die Auswahl geeigneter Big-Data-Lösungen und deren technische Umsetzung ist eine anspruchsvolle Aufgabe. Diese Arbeit vergleicht Big-Data-Architekturen und untersucht Lösungen für das Sammeln, Anreicherung, Analyse und Visualisierung von Log-Daten. Basierend auf den Use Cases und den Anforderungen von Entwicklern, die in diesem Bereich arbeiten, wird ein Vergleich zwischen einem individuell zusammengestellten Stack und einer Komplettlösung vorgenommen. Da die Komplettlösung vorteilhafter ist, werden Datadog, Grafana Loki und der Elastic 8 Stack für eine genauere Untersuchung ausgewählt. Diese drei Systeme werden auf der Grundlage der Anforderungen implementiert und verglichen. Alle drei Systeme eignen sich gut für Big-Data-Logging und erfüllen die meisten Anforderungen, zeigen aber unterschiedliche Fähigkeiten bei der Implementierung und Nutzung.:1 Introduction 1.1 Motivation 1.2 Structure 2 Fundamentals and Prerequisites 2.1 Logging 2.1.1 Log level 2.1.2 CSFW log 2.1.3 SECS log 2.2 Existing system and data 2.2.1 Production process 2.2.2 Log data in numbers 2.3 Requirements 2.3.1 Functional requirements 2.3.2 System requirements 2.3.3 Quality requirements 2.4 Use Cases 2.4.1 Finding specific communication sequence 2.4.2 Watching system changes 2.4.3 Comparison with expected production path 2.4.4 Enrichment with metadata 2.4.5 Decoupled log analysis 3 State of the Art and Potential Software Stacks 3.1 State of the art software stacks 3.1.1 IoT flow monitoring system 3.1.2 Big-Data IoT monitoring system 3.1.3 IoT Cloud Computing Stack 3.1.4 Big-Data Logging Architecture 3.1.5 IoT Energy Conservation System 3.1.6 Similarities of the architectures 3.2 Selection of software stack 3.2.1 Components for one layer 3.2.2 Software solutions for the stack 4 Analysis and Implementation 4.1 Full stack vs. a custom assembled stack 4.1.1 Drawbacks of a custom assembled stack 4.1.2 Advantages of a complete solution 4.1.3 Exclusion of a custom assembled stack 4.2 Selection of full stack solutions 4.2.1 Elastic vs. Amazon 4.2.2 Comparison of Cloud-Only-Solutions 4.2.3 Comparison of On-Premise-Solutions 4.3 Implementation of selected solutions 4.3.1 Datadog 4.3.2 Grafana Loki Stack 4.3.3 Elastic 8 Stack 5 Comparison 5.1 Comparison of components 5.1.1 Collection 5.1.2 Analysis 5.1.3 Visualization 5.2 Comparison of requirements 5.2.1 Functional requirements 5.2.2 System requirements 5.2.3 Quality requirements 5.3 Results 6 Conclusion and Future Work 6.1 Conclusion 6.2 Future Work
354

Large-Scale Time Series Analytics

Hahmann, Martin, Hartmann, Claudio, Kegel, Lars, Lehner, Wolfgang 16 June 2023 (has links)
More and more data is gathered every day and time series are a major part of it. Due to the usefulness of this type of data, it is analyzed in many application domains. While there already exists a broad variety of methods for this task, there is still a lack of approaches that address new requirements brought up by large-scale time series data like cross-domain usage or compensation of missing data. In this paper, we address these issues, by presenting novel approaches for generating and forecasting large-scale time series data.
355

Hur och varför industriföretag använder sig av data från fysiska produkter / How and why industrial companies use data from physical products

Edeland, Mattias, Hemberg Zetterlind, Samuel January 2023 (has links)
De senaste decenniernas teknikutveckling har fört med sig många möjligheter och industriföretags produkter genererar idag stora mängder data, exempelvis bilar. Mjukvaruföretag har legat i framkant vad gäller insamling och analysering av data och industriföretag har därifrån mycket att lära sig. Syftet med detta arbete är att undersöka möjligheter och utmaningar industriföretag står inför när de samlar in data från sina produkter. Studien inleddes med en litteraturstudie vilken lade grunden för studiens syfte och problematisering. Därefter gjordes en djupare undersökning där teori och intervjustudie jämfördes. I intervjustudien deltog fyra svenska företag som alla tillverkar eller planerar att tillverka smarta produkter. Resultatet av arbetet visar på att industriföretag blir allt mer datadrivna och att de ofta gynnas av att samla in data från deras produkter. De största användningsområdena som kommer med produktgenererad data är att företag kan förstå kundbehov, övervakning av produkter samt prediktivt underhåll. Möjligheterna som kommer med detta är så pass stora att det för de flesta stora industriföretag är nödvändigt att arbeta med produktgenererad data för att bibehålla konkurrenskraft. / The technical advancements that have been made during the last decades have brought many opportunities, and the products that industrial companies are developing now generate vast amounts of data. Software companies have been leading the development of collecting and analyzing data, and industrial companies have much to learn from them. The purpose of this work is to investigate the opportunities and challenges that industrial companies face when collecting data from their products. The study was preceded by a literature review that formed the foundation of the purpose and problematization of the study. A deeper investigation was then conducted where theory and interview study were compared. Four Swedish companies took part in the interview study, and all are manufacturing or plan to manufacture smart products. The results show that industrial companies become more and more data driven and that they benefit from collecting data from their products. The biggest use cases for companies that product generated data brings are understanding of customer needs, the possibility for customer to monitor their products and predictive maintenance. The opportunities this gives are so great that it is necessary for most industrial companies to take use product generated data, in order to stay competitive.
356

[pt] ENSAIOS SOBRE NOWCASTING COM DADOS EM ALTA DIMENSÃO / [en] ESSAYS ON NOWCASTING WITH HIGH DIMENSIONAL DATA

HENRIQUE FERNANDES PIRES 02 June 2022 (has links)
[pt] Em economia, Nowcasting é a previsão do presente, do passado recente ou mesmo a previsão do futuro muito próximo de um determinado indicador. Geralmente, um modelo nowcast é útil quando o valor de uma variável de interesse é disponibilizado com um atraso significativo em relação ao seu período de referência e/ou sua realização inicial é notavelmente revisada ao longo do tempo, se estabilizando somente após um tempo. Nesta tese, desenvolvemos e analisamos vários métodos de Nowcasting usando dados de alta dimensão (big data) em diferentes contextos: desde a previsão de séries econômicas até o nowcast de óbitos pela COVID-19. Em um de nossos estudos, comparamos o desempenho de diferentes algoritmos de Machine Learning com modelos mais naive na previsão de muitas variáveis econômicas em tempo real e mostramos que, na maioria das vezes, o Machine Learning supera os modelos de benchmark. Já no restante dos nossos exercícios, combinamos várias técnicas de nowcasting com um grande conjunto de dados (incluindo variáveis de alta frequência, como o Google Trends) para rastrear a pandemia no Brasil, mostrando que fomos capazes de antecipar os números reais de mortes e casos muito antes de estarem disponíveis oficialmente para todos. / [en] Nowcasting in economics is the prediction of the present, the recent past or even the prediction of the very near future of a certain indicator. Generally, a nowcast model is useful when the value of a target variable is released with a significant delay with respect to its reference period and/or when its value gets notably revised over time and stabilizes only after a while. In this thesis, we develop and analyze several Nowcasting methods using high-dimensional (big) data in different contexts: from the forecasting of economic series to the nowcast of COVID-19. In one of our studies, we compare the performance of different Machine Learning algorithms with more naive models in predicting many economic variables in real-time and we show that, most of the time, Machine Learning beats benchmark models. Then, in the rest of our exercises, we combine several nowcasting techniques with a big dataset (including high-frequency variables, such as Google Trends) in order to track the pandemic in Brazil, showing that we were able to nowcast the true numbers of deaths and cases way before they got available to everyone.
357

[pt] ANÁLISE ESTOCÁSTICA DA PROPAGAÇÃO DE UMA DOENÇA DE CARÁTER EPIDEMIOLÓGICO / [en] STOCHASTIC ANALYSES OF THE SPREAD OF AN EPIDEMIOLOGICAL DISEASE

BEATRIZ DE REZENDE BARCELLOS BORGES 29 November 2021 (has links)
[pt] Este trabalho analisa a propagação de uma doença epidemiológica com uma abordagem estocástica. Na análise, o número de indivíduos que cada membro infectado da população pode infectar é modelado como uma variável aleatória e o número de indivíduos infectados ao longo do tempo é modelado como um processo estocástico de ramificação. O foco do trabalho é caracterizar a influência do modelo probabilístico da variável aleatória que modela o contágio entre indivíduos na disseminação da doença e na probabilidade de extinção, e analisar a influência de uma vacinação em massa no controle da propagação da doença. A comparação é feita com base em histogramas e estatísticas amostrais do número de indivíduos infectados ao longo do tempo, como média e variância. Os modelos estatísticos referentes à parte que trata de uma população não vacinada são calculados usando simulações de Monte Carlo para 3 diferentes famílias de variáveis aleatórias: binomial, geométrica-1 e geométrica-0. Para cada família, 21 distribuições diferentes foram selecionadas e, para cada distribuição, 4000 simulações do processo de ramificação foram computadas. Os modelos estatísticos referentes a uma população parcialmente vacinada foram calculados usando simulações de Monte Carlo para a família de variável aleatória binomial. Para essa família, 21 distribuições diferentes foram selecionadas e, para cada uma delas foram escolhidas 6 diferentes percentagens de população vacinada. Para cada percentagem, foram analisadas vacinas com 4 diferentes eficácias. No total, foram realizadas 2.2 milhões de simulações, caracterizando o problema como big data. / [en] This work analyzes the spread of an epidemiological disease with a stochastic approach. In the analysis, the number of individuals that each infected member of the population can infect is modeled as a random variable and the number of infected individuals over time is modeled as a stochastic branching process. The focus of the work is to characterize the influence of the probabilistic model of the random variable that models contagion between individuals on the spread of the disease and the probability of extinction, and to analyze the influence of mass vaccination in controlling the spread of a disease. The comparison is based on histograms and sample statistics of the number of infected individuals over time, such as mean and variance. Statistical models for the chapter dealing with a vaccine free population are calculated using Monte Carlo simulations for 3 different families of random variables: binomial, geometric-1 and geometric-0. For each of the 3 families, 21 different distributions were selected and, for each distribution, 4000 simulations of the branching process were computed. Statistical models for a partially vaccinated population were calculated using Monte Carlo simulations for one family of random variable: the binomial. For it, 21 different distributions were selected and, for each of them, 6 different percentages of the vaccinated population were chosen. For each of them, 4 different vaccine efficacy were stipulated. In total, 2.2 million simulations were performed, featuring a big data problem.
358

Digitaliseringens påverkan på revisorsprofessionen / The effects of digitization on the auditor profession

Åkvist, Oliver, Jönsson, Linus January 2022 (has links)
Problemdiskussion: Digitaliseringen är en process som påverkar stora delar av samhället. Tidigare studier har påvisat att digitaliseringen har lett till förändringar av olika professioner, vilka kan beskrivas som yrkesgrupper som uppfyller vissa kriterier. Då revisorer kan betecknas som en profession, kan en undersökning av revisorers upplevelser av digitaliseringen bidra till en förståelse kring hur revisorsprofessionen har påverkats av digitaliseringen. Syfte: Uppsatsens syfte är att bidra med en fördjupad förståelse kring digitaliseringens påverkan på revisorsprofessionen. Metod: Forskningsansatsen som tillämpas är deduktiv, där den teoretiska referensramen ligger till grund för den empiri som samlas in. En kvalitativ studie genomförs genom att intervjua och observera revisorer, för att få en bild av deras upplevelser av digitaliseringen. Slutsats: Studien visar att digitaliseringen på flera olika sätt har påverkat revisorsprofessionen. Kunskapen som krävs har ökat och delvis blivit av annan typ än tidigare, genom ett skifte från kunskaper inom redovisning till dataanalys, vilket tyder på en förstärkning av professionen. Autonomin har till stor del minskat, genom exempelvis fler regler, även om vissa aspekter av den kan sägas ha ökat. Professionens språk har förstärkts genom ökad användning av befintliga begrepp och utökats med nya begrepp kopplade till de digitala verktygen, vilket bidrar till att stärka medlemmarnas gemensamma identitet. Slutligen har de digitala verktygen lett till att arbetet enklare kan presenteras för kunderna, samtidigt som dataanalyser ger kunderna ett högre mervärde, vilket har förstärkt känslan av att det finns ett förtroende hos kunderna. Dock kan en del av förtroendet egentligen ha tilldelats tekniken. Hos övriga delar av samhället kan förtroendet sägas vara ganska oförändrat och i stället bero på uppkomna revisionsskandaler. / Problem: Digitization is a process which affects large parts of society. Previous studies have shown that digitization has led to changes in different professions, which can be described as occupational groups which meet certain criteria. Since auditors can be denoted as a profession, a study of auditors' experiences of digitization can contribute to an understanding of how the auditor profession has been affected by digitization. Purpose: The purpose of this thesis is to contribute to a deepened understanding about digitization's effects on the auditor profession. Method: The research approach being applied is deductive, in which the theoretical frame of reference forms the basis for the collected empirics. A qualitative study is carried through by interviewing and observing auditors, to get a picture of their experiences of digitization. Conclusion: The study shows that digitization has affected auditors as a profession in several different ways. The needed knowledge has increased and partly become of a different kind than before, by a change from knowledge in accounting to data analysis, which indicates a reinforcement of the profession. The autonomy has to a large extent decreased, by for example more rules, even if certain aspects of it can be said to have increased. The profession's language has been reinforced by increased use of existing notions and expanded with new notions related to the digital tools, which contributes to strengthening the members' common identity. Lastly, digital tools have made it easier to present the work to the clients, while data analyses have given clients a higher added value, which has strengthened the feeling that there is a position of trust towards the clients. However, parts of the position of trust could in reality have been assigned to the technology. Among other parts of society, the trust can be said to be quite unaltered and instead be dependent on arisen auditing scandals.
359

Prediktiv analys i vården : Hur kan maskininlärningstekniker användas för att prognostisera vårdflöden? / Predictive analytics in healthcare : A machine learning approach to forecast healthcare processes

Corné, Josefine, Ullvin, Amanda January 2017 (has links)
Projektet genomfördes i samarbete med Siemens Healthineers i syfte att utreda möjligheter till att prognostisera vårdflöden. Det genom att undersöka hur big data tillsammans med maskininlärning kan utnyttjas för prediktiv analys. Projektet utgjordes av två fallstudier med mål att, baserat på data från tidigare MRT-undersökningar, förutspå undersökningstider för kommande undersökningar respektive identifiera patienter som riskerar att missa inbokad undersökning. Fallstudierna utfördes med hjälp av programmeringsspråket R och tre olika inbyggda funktioner för maskininlärning användes för att ta fram prediktiva modeller för respektive fallstudie. Resultaten från fallstudierna gav en indikation på att det med en större datamängd av bättre kvalitet skulle vara möjligt att förutspå undersökningstider och vilka patienter som riskerar att missa sin inbokade undersökning. Det talar för att den här typen av prediktiva analyser kan användas för att prognostisera vårdflöden, något som skulle kunna bidra till ökad effektivitet och kortare väntetider i vården. / This project was performed in cooperation with Siemens Healthineers. The project aimed to investigate possibilities to forecast healthcare processes by investigating how big data and machine learning can be used for predictive analytics. The project consisted of two separate case studies. Based on data from previous MRI examinations the aim was to investigate if it is possible to predict duration of MRI examinations and identify potential no show patients. The case studies were performed with the programming language R and three machine learning methods were used to develop predictive models for each case study. The results from the case studies indicate that with a greater amount of data of better quality it would be possible to predict duration of MRI examinations and potential no show patients. The conclusion is that these types of predictive models can be used to forecast healthcare processes. This could contribute to increased effectivity and reduced waiting time in healthcare.
360

An automated approach to clustering with the framework suggested by Bradley, Fayyad and Reina

Berglund, Jesper January 2018 (has links)
Clustering with the framework suggested by Bradley, Fayyad and Reina allows for great scalability. However, practical challenges appear when applying the framework. One of the challenges is to define model parameters. This includes defining the number of clusters (K). Understanding how parameter values affect the final clustering may be challenging even with insight into the algorithm. Automating the clustering would allow for a more widespread use. The research question is thus: How could an automated process for clustering with BFR be defined and what results could such a process yield? A tailored method for parameter optimization is suggested. This method is used with a new and computationally advantageous cluster validity index called population density index. Computing the widely used within set sum of squares error requires an additional pass over the data set. Computing population density index does not. The final step of the automated process is to cluster with the parameters generated in the process. The outcome of these clusterings are measured. The results present data collected over 100 identically defined automated processes. These results show that 97 % of the identified K-values falls within the range of the suggested optimal value 2. The method for optimizing parameters clearly results in parameters that outperform randomized parameters. The suggested population density index has a correlation coefficient of 1.00 with the commonly used within set sum of square error in a 32-dimensional case. An automated process for clustering with BFR has been defined. / Ramverket som föreslås av Bradley, Fayyad och Reina möjliggör storskalig klustring. Att använda ramverket medför dock praktiska utmaningar. En av dessa utmaningar är att definiera modellens parametrar. Detta inkluderar att definiera antalet kluster (K). Att förstå hur angivna parametervärden påverkar det slutgiltiga klustringsresultatet är utmanande även med insikt i algoritmen. Att automatisera klustringen skulle möjliggöra för fler att använda ramverket. Detta resulterar i frågeställningen: Hur skulle en automatiserad process för klustring med BFR kunna definieras och vilka resultat skulle en sådan process kunna ge? En skräddarsydd metod för parameteroptimisering föreslås. Denna används i kombination med ett nytt klustervalideringsindex vilket refereras till som population density index. Användning av detta index medför beräkningsmässiga fördelar. Att beräkna det frekvent använda within set sum of squares-värdet kräver ytterligare en iteration över det använda datasettet. Att beräkna population density index undviker denna extra iteration. Det sista steget i den automatiserade processen är att klustra givet de parametervärden som processen själv definierar. Resultatet av dessa klustringar mäts. Resultaten presenterar data insamlad över 100 individuella försök. För samtliga av dessa var den automatiserade processen identiskt definierad. Resultaten visar att 97 % av de identifierade värdena på K-parametern faller inom en värdemängd baserad på det optimala värdet 2. Att optimera parametervärden med den föreslagna metoden ger tydligt bättre värden än om dessa genereras stokastiskt. Det föreslagna population density index har 1.00 som korrelationskoefficient med det välanvända within set sum of squares-värdet i ett 32-dimensionellt fall. En automatiserad process för att klustra med BFR har definierats.

Page generated in 0.135 seconds