• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 315
  • 25
  • 20
  • 13
  • 8
  • 5
  • 5
  • 4
  • 4
  • 3
  • 2
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 476
  • 476
  • 256
  • 255
  • 137
  • 124
  • 120
  • 117
  • 106
  • 82
  • 80
  • 73
  • 72
  • 70
  • 57
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

Contribution to automatic adjustments of vertebrae landmarks on x-ray images for 3D reconstruction and quantification of clinical indices / Contribution aux ajustements automatiques de points anatomiques des vertèbres pour la reconstruction 3D et la quantification d’indices cliniques

Ebrahimi, Shahin 12 December 2017 (has links)
L’exploitation de données radiographiques, en particulier pour la reconstruction 3D du rachis de patients scoliotiques, est un prérequis à la modélisation personnalisée. Les méthodes actuelles, bien qu’assez robustes pour la routine clinique, reposent sur des ajustements manuels fastidieux. Dans ce contexte, ce travail de thèse vise à la détection automatisée de points anatomiques spécifiques des vertèbres, permettant ainsi des ajustements automatisés. Nous avons développé premièrement une méthode originale de localisation de coins de vertèbres cervicales et lombaires sur les radiographies sagittales. L’évaluation rigoureuse de cette méthode suggère sa robustesse et sa précision. Nous avons ensuite développé un algorithme pour le problème pertinent cliniquement de localisation des pédicules sur les radiographies coronales. Cet algorithme se compare favorablement aux méthodes similaires dans la littérature, qui nécessitent une saisie manuelle. Enfin, nous avons soulevé les problèmes, relativement peu étudiés, de détection, identification et segmentation des apophyses épineuses du rachis cervical dans les radiographies sagittales. Toutes les tâches mentionnées ont été réalisées grâce à une combinaison originale de descripteurs visuels et une classification multi-classe par Random Forest, menant à une nouvelle et puissante approche de localisation et de segmentation. Les méthodes proposées dans cette thèse suggèrent un grand potentiel pour être intégré à la reconstruction 3D du rachis, utilisée quotidiennement en routine clinique. / Exploitation of spine radiographs, in particular for 3D spine shape reconstruction of scoliotic patients, is a prerequisite for personalized modelling. Current methods, even though robust enough to be used in clinical routine, still rely on tedious manual adjustments. In this context, this PhD thesis aims toward automated detection of specific vertebrae landmarks in spine radiographs, enabling automated adjustments. In the first part, we developed an original Random Forest based framework for vertebrae corner localization that was applied on sagittal radiographs of both cervical and lumbar spine regions. A rigorous evaluation of the method confirms robustness and high accuracy of the proposed method. In the second part, we developed an algorithm for the clinically-important task of pedicle localization in the thoracolumbar region on frontal radiographs. The proposed algorithm compares favourably to similar methods from the literature while relying on less manual supervision. The last part of this PhD tackled the scarcely-studied task of joint detection, identification and segmentation of spinous processes of cervical vertebrae in sagittal radiographs, with again high precision performance. All three algorithmic solutions were designed around a generic framework exploiting dedicated visual feature descriptors and multi-class Random Forest classifiers, proposing a novel solution with computational and manual supervision burdens aiming for translation into clinical use. Overall, the presented frameworks suggest a great potential of being integrated in current spine 3D reconstruction frameworks that are used in daily clinical routine.
42

Ensemble Models for Trend Investing / Ensemble modeller för trendinvesteringar

Book, Emil, Gnem, Emil January 2021 (has links)
Portfolio strategies focusing on following the trend, so called momentum based strategies, have been popular for a long time among investors and have had many academic studies, however with varying results. This study sets out to investigate different momentum trading signals as well as combining them in ensemble models such as Random Forest and the unique Dim Switch portfolio and then compare them to set benchmarks. Only one of the benchmarks, the 100% equity portfolio, is found to have better returns than the constructed momentum based strategies, however the momentum based strategies show a lot of potential with high risk-adjusted returns and good performance with regards to Expected Shortfall, Value at Risk and Maximum Drawdown. The most common momentum trading signal, the momentum rule with 9 months lookback, was found to have the highest risk-adjusted returns compared to both the benchmarks and the ensemble models, but it was also found to have slightly heavier left tail than the ensemble models. / Portföljstrategier som baserar sig på att följa trenden, så kallade momentumstrategier, har varit populära länge bland investerare. Många akademiska studier har gjorts om ämnet med varierande resultat. Denna studie utreder olika trendsignaler och kombinerar dem för att forma så kallade ensemble modeller, mer specifikt Random Forest och den unika "Dim Switch"-approachen, för att sedan jämföra dessa strategier mot benchmark portföljer. Endast en av benchmark portföljerna, 100% aktier i en ''buy and hold''-portfölj hade bättre avkastning än de momentumbaserade ensemble modellerna i studien. Däremot har momentumbaserade ensemble modellerna högre riskjusterad avkastning, Expected Shortfall, Value at Risk och Maximum drawdown. Den mest återkommande trendsignalen ''Momentum rule'' med nio månaders lookback hade extremt hög riskjusterad avkastning jämfört med benchmarks och ensemble modellerna, men det kom med kostnaden av högre risker i svansen.
43

Differentially Private Random Forests for Network Intrusion Detection in a Federated Learning Setting

Frid, Alexander January 2023 (has links)
För varje dag som går möter stora industrier en ökad mängd intrång i sina IT-system. De flesta befintliga verktyg som använder sig utav maskininlärning är starkt beroende av stora mängder data, vilket innebär risker under dataöverföringen. Därför har syftet med denna studie varit att undersöka om en decentraliserad integritetsbevarande strategi kan vara ett bra alternativ för att minska effektiviteten av dessa attacker. Mer specifikt skulle användningen av Random Forests, en av de mest populära algoritmerna för maskininlärning, kunna utökas med decentraliseringstekniken Federated Learning tisammans med Differential Privacy, för att skapa en ideal metod för att upptäcka nätverksintrång? Med hjälp av befintliga kodbibliotek för maskininlärnings och verklighetsbaserad data har detta projekt konstruerat olika modeller för att simulera hur väl olika decentraliserade och integritetsbevarande modeller kan jämföras med traditionella alternativ. De skapade modellerna innehåller antingen Federated Learning, Differential Privacy eller en kombination av båda. Huvuduppgiften för dessa modeller är att förbättra integriteten och samtidigt minimera minskningen av precision. Resultaten indikerar att båda teknikerna kommer med en liten minskning i noggrannhet jämfört med traditionella alternativ. Huruvida precisionsförlusten är acceptabel eller beror på det specifika användningsområdet. Det utvecklade kombinerade alternativet lyckades dock inte nå acceptabel precision vilket hindrar oss från att dra några slutsatser. / With each passing day, large industries face an increasing amount of intrusions into their IT environments. Most existing machine learning countermeasures heavily rely on large amounts of data which introduces risk during the data-transmission. Therefore, the objective of this study has been to investigate whether a decentralized privacy-preserving approach could be a sensible alternative to decrease the effectiveness of these attacks. More specifically could the use of Random Forests, one of the most popular machine learning algorithms, be extended using the decentralization technique Federated Learning in cooperation with Differential Privacy, in order to create an ideal approach for network intrusion detection? With the assistance of existing machine learning code-libraries and real-life data, this thesis has constructed various experimental models to simulates how well different decentralized and privacy-preserving approaches compare to traditional ones. The models created incorporate either Federated Learning, Differential Privacy or a combination of both. The main task of these models is to enhance privacy while minimizing the decrease in accuracy. The results indicate that both techniques comes with a small decrease in accuracy compared to traditional alternatives. whether the accuracy loss is acceptable or not may depend on the specific scenario. The developed combined approach however, failed to reach acceptable accuracy which prevents us from drawing any conclusions.
44

Machine Learning in credit risk : Evaluation of supervised machine learning models predicting credit risk in the financial sector

Lundström, Love, Öhman, Oscar January 2019 (has links)
When banks lend money to another party they face a risk that the borrower will not fulfill its obligation towards the bank. This risk is called credit risk and it’s the largest risk banks faces. According to the Basel accord banks need to have a certain amount of capital requirements to protect themselves towards future financial crisis. This amount is calculated for each loan with an attached risk-weighted asset, RWA. The main parameters in RWA is probability of default and loss given default. Banks are today allowed to use their own internal models to calculate these parameters. Thus hold capital with no gained interest is a great cost, banks seek to find tools to better predict probability of default to lower the capital requirement. Machine learning and supervised algorithms such as Logistic regression, Neural network, Decision tree and Random Forest can be used to decide credit risk. By training algorithms on historical data with known results the parameter probability of default (PD) can be determined with a higher certainty degree compared to traditional models, leading to a lower capital requirement. On the given data set in this article Logistic regression seems to be the algorithm with highest accuracy of classifying customer into right category. However, it classifies a lot of people as false positive meaning the model thinks a customer will honour its obligation but in fact the customer defaults. Doing this comes with a great cost for the banks. Through implementing a cost function to minimize this error, we found that the Neural network has the lowest false positive rate and will therefore be the model that is best suited for this specific classification task. / När banker lånar ut pengar till en annan part uppstår en risk i att låntagaren inte uppfyller sitt antagande mot banken. Denna risk kallas för kredit risk och är den största risken en bank står inför. Enligt Basel föreskrifterna måste en bank avsätta en viss summa kapital för varje lån de ger ut för att på så sätt skydda sig emot framtida finansiella kriser. Denna summa beräknas fram utifrån varje enskilt lån med tillhörande risk-vikt, RWA. De huvudsakliga parametrarna i RWA är sannolikheten att en kund ej kan betala tillbaka lånet samt summan som banken då förlorar. Idag kan banker använda sig av interna modeller för att estimera dessa parametrar. Då bundet kapital medför stora kostnader för banker, försöker de sträva efter att hitta bättre verktyg för att uppskatta sannolikheten att en kund fallerar för att på så sätt minska deras kapitalkrav. Därför har nu banker börjat titta på möjligheten att använda sig av maskininlärningsalgoritmer för att estimera dessa parametrar. Maskininlärningsalgoritmer såsom Logistisk regression, Neurala nätverk, Beslutsträd och Random forest, kan användas för att bestämma kreditrisk. Genom att träna algoritmer på historisk data med kända resultat kan parametern, chansen att en kund ej betalar tillbaka lånet (PD), bestämmas med en högre säkerhet än traditionella metoder. På den givna datan som denna uppsats bygger på visar det sig att Logistisk regression är den algoritm med högst träffsäkerhet att klassificera en kund till rätt kategori. Däremot klassifiserar denna algoritm många kunder som falsk positiv vilket betyder att den predikterar att många kunder kommer betala tillbaka sina lån men i själva verket inte betalar tillbaka lånet. Att göra detta medför en stor kostnad för bankerna. Genom att istället utvärdera modellerna med hjälp av att införa en kostnadsfunktion för att minska detta fel finner vi att Neurala nätverk har den lägsta falsk positiv ration och kommer därmed vara den model som är bäst lämpad att utföra just denna specifika klassifierings uppgift.
45

Etude par imagerie in situ des processus biophysiques en milieu fluvial : éléments méthodologiques et applications / Study of fluvial biophysical processes using ground imagery : methodological elements and applications

Benacchio, Véronique 10 July 2017 (has links)
La télédétection est une technique de plus en plus utilisée dans le domaine fluvial, et si des images acquises à haute, voire très haute altitude via des vecteurs aéroportés et satellites sont traditionnellement utilisées, l’imagerie in situ (ou « imagerie de terrain ») constitue un outil complémentaire qui présente de nombreux avantages (facilité de mise en place, coûts réduits, point de vue oblique, etc.). Les possibilités de programmer les prises de vue fixes à des fréquences relativement élevées (de quelques dixièmes de secondes dans le cas de vidéos, à quelques heures par exemple) mais aussi de pouvoir observer les évènements au moment où ils surviennent, est sans commune mesure avec les contraintes associées à l’acquisition de l’imagerie « classique » (dont les plus hautes fréquences s’élèvent à quelques jours). Cela permet de produire des jeux de données conséquents, dont l’analyse automatisée est nécessaire et constitue l’un des enjeux de cette thèse. Le traitement et l’analyse de jeux de données produits sur cinq sites test français et québécois ont permis de mieux évaluer les potentialités et les limites liées à l’utilisation de l’imagerie in situ dans le cadre de l’étude des milieux fluviaux. La définition des conditions optimales d’installation des capteurs en vue de l’acquisition des données constitue la première étape d’une démarche globale, présentée sous forme de modules optionnels, à prendre en compte selon les objectifs de l’étude. L’extraction de l’information radiométrique, puis le traitement statistique du signal ont été évalués dans plusieurs situations tests. La classification orientée-objet avec apprentissage supervisé des images a notamment été expérimentée via des random forests. L’exploitation des jeux de données repose principalement sur l’analyse de séries temporelles à haute fréquence. Cette thèse expose les forces et les faiblesses de cette approche et illustre des usages potentiels pour la compréhension des dynamiques fluviales. Ainsi, l’imagerie in situ est un très bon outil pour l’étude et l’analyse des cours d’eau, car elle permet la mesure de différents types de temporalités régissant les processus biophysiques observés. Cependant, il est nécessaire d’optimiser la qualité des images produites et notamment de limiter au maximum l’angle de vue du capteur, ou la variabilité des conditions de luminosité entre clichés, afin de produire des séries temporelles pleinement exploitables. / Remote sensing is more and more used in river sciences, mainly using satellite and airborne imagery. Ground imagery constitutes a complementary tool which presents numerous advantages for the study of rivers. For example, it is easy to set up; costs are limited; it allows an oblique angle; etc. It also presents the possibility to set up the triggering with very high frequency, ranging, for instance, from a few seconds to a few hours. The possibility to monitor events at the instant they occur makes ground imagery extremely advantageous compared to aerial or spatial imagery (whose highest acquisition frequency corresponds to a few days). Such frequencies produce huge datasets, which require automated analyses. This is one of the challenges addressed in this thesis. Processing and analysis of data acquired at five study sites located in France and Québec, Canada, facilitated the evaluation of ground imagery potentials, as well as its limitations with respect to the study of fluvial systems. The identification of optimal conditions to set up the cameras and to acquire images is the first step of a global approach, presented as a chain of optional modules. Each one is to be taken into account according to the objectives of the study. The extraction of radiometric information and the subsequent statistical analysis of the signal were tested in several situations. In particular, random forests were applied, as a supervised object-oriented classification method. The datasets were principally exploited using high frequency time series analyses, which allowed demonstrating strengths and weaknesses of this approach, as well as some potential applications. Ground imagery is a powerful tool to monitor fluvial systems, as it facilitates the definition of various kinds of time characteristics linked with fluvial biophysical processes. However, it is necessary to optimize the quality of the data produced. In particular, it is necessary to minimize the acquisition angle and to limit the variability of luminosity conditions between shots in order to acquire fully exploitable datasets.
46

High-Dimensional Classification Models with Applications to Email Targeting / Högdimensionella klassificeringsmetoder med tillämpning på målgruppsinriktning för e-mejl

Pettersson, Anders January 2015 (has links)
Email communication is valuable for any modern company, since it offers an easy mean for spreading important information or advertising new products, features or offers and much more. To be able to identify which customers that would be interested in certain information would make it possible to significantly improve a company's email communication and as such avoiding that customers start ignoring messages and creating unnecessary badwill. This thesis focuses on trying to target customers by applying statistical learning methods to historical data provided by the music streaming company Spotify. An important aspect was the high-dimensionality of the data, creating certain demands on the applied methods. A binary classification model was created, where the target was whether a customer will open the email or not. Two approaches were used for trying to target the costumers, logistic regression, both with and without regularization, and random forest classifier, for their ability to handle the high-dimensionality of the data. Performance accuracy of the suggested models were then evaluated on both a training set and a test set using statistical validation methods, such as cross-validation, ROC curves and lift charts. The models were studied under both large-sample and high-dimensional scenarios. The high-dimensional scenario represents when the number of observations, N, is of the same order as the number of features, p and the large sample scenario represents when N ≫ p. Lasso-based variable selection was performed for both these scenarios, to study the informative value of the features. This study demonstrates that it is possible to greatly improve the opening rate of emails by targeting users, even in the high dimensional scenario. The results show that increasing the amount of training data over a thousand fold will only improve the performance marginally. Rather efficient customer targeting can be achieved by using a few highly informative variables selected by the Lasso regularization. / Företag kan använda e-mejl för att på ett enkelt sätt sprida viktig information, göra reklam för nya produkter eller erbjudanden och mycket mer, men för många e-mejl kan göra att kunder slutar intressera sig för innehållet, genererar badwill och omöjliggöra framtida kommunikation. Att kunna urskilja vilka kunder som är intresserade av det specifika innehållet skulle vara en möjlighet att signifikant förbättra ett företags användning av e-mejl som kommunikationskanal. Denna studie fokuserar på att urskilja kunder med hjälp av statistisk inlärning applicerad på historisk data tillhandahållen av musikstreaming-företaget Spotify. En binärklassificeringsmodell valdes, där responsvariabeln beskrev huruvida kunden öppnade e-mejlet eller inte. Två olika metoder användes för att försöka identifiera de kunder som troligtvis skulle öppna e-mejlen, logistisk regression, både med och utan regularisering, samt random forest klassificerare, tack vare deras förmåga att hantera högdimensionella data. Metoderna blev sedan utvärderade på både ett träningsset och ett testset, med hjälp av flera olika statistiska valideringsmetoder så som korsvalidering och ROC kurvor. Modellerna studerades under både scenarios med stora stickprov och högdimensionella data. Där scenarion med högdimensionella data representeras av att antalet observationer, N, är av liknande storlek som antalet förklarande variabler, p, och scenarion med stora stickprov representeras av att N ≫ p. Lasso-baserad variabelselektion utfördes för båda dessa scenarion för att studera informationsvärdet av förklaringsvariablerna. Denna studie visar att det är möjligt att signifikant förbättra öppningsfrekvensen av e-mejl genom att selektera kunder, även när man endast använder små mängder av data. Resultaten visar att en enorm ökning i antalet träningsobservationer endast kommer förbättra modellernas förmåga att urskilja kunder marginellt.
47

Machine Learning for Classification of Temperature Controlled Containers Using Heavily Imbalanced Data / Maskininlärning för klassificering av temperatur reglerbara containrar genom användande av extremt obalanserad data

Ranjith, Adam January 2022 (has links)
Temperature controllable containers are used frequently in order to transport pharmaceutical cargo all around the world. One of the leading manufacturing companies of these containers has a method for detecting containers with a faulty cooling system before making a shipment. However, the problem with this method is that the model tends to miss-classify containers. Hence, this thesis aims to investigate if machine learning usage would make classification of containers more accurate. Nonetheless, there is a problem, the data set is extremely imbalanced. If machine learning can be used to improve container manufacturing companies fault detection systems, it would imply less damaged and delayed pharmaceutical cargo which could be vital. Various combinations of machine learning classifiers and techniques for handling the imbalance were tested in order to find the most optimal one. The Random Forest classifier when using oversampling was the best performing combination which performed about equally as good as the company’s current method, with a recall score of 92% and a precision score of 34%. Earlier there were no known papers on machine learning for classification of temperature controllable containers. However, now other manufacturing companies could favourably use the concepts and methods presented in this thesis in order to enhance the effectiveness of their fault detection systems and consequently improve the overall shipping efficiency of pharmaceutical cargo. / Temperatur reglerbara containrar används frekvent inom medicinsk transport runt om i hela världen. Ett ledande företag som är tillverkare av dessa containrar använder sig av en metod för att upptäcka containrar med ett felaktigt kylsystem redan innan de hunnit ut på en transport. Denna metod är fungerande men inte perfekt då den tenderar att felaktigt klassificera containrar. Detta examensarbete är en utredande avhandling för att ta reda på om maskininlärning kan användas för att förbättra klassificeringen av containrar. Det finns dock ett problem, data setet är extremt obalanserat. Om maskininlärning kan användas för att förbättra felsökningssystemen hos tillverkare av temperatur reglerbara containrar skulle det innebära mindre förstörda samt mindre försenade medicinska transporter vilket kan vara livsavgörande. Ett urval av kombinationer mellan maskininlärnings modeller och tekniker för att hantera obalanserad data testade för att avgöra vilken som är optimal. Klassificeraren Random Forest ihop med över-sampling resulterade i best prestanda, ungefär lika bra som företagets nuvarande metod. Tidigare har det inte funnits några kända rapporter om användning av maskininlärning för att klassificera temperaturer reglerbara containrar. Nu kan dock andra tillverkare av containrar använda sig av koncept och metoder som presenterades i avhandlingen för att optimera deras felsökningssystem och således förbättra den allmänna effektiviteten inom medicinsk transport.
48

Applicering av maskininlärning för att predicera utfall av Kickstarter-projekt / Application of machine learning to predict outcome of Kickstarter-projects

Lidén, Rickard, In, Gabriel January 2021 (has links)
Crowdfunding är i den moderna digitala världen ett populärt sätt att samla in pengar till sitt projekt. Kickstarter är en av de ledande sidorna för crowdfunding. Predicering av ett Kickstarter-projekts framgång eller misslyckande kan därav vara av stort intresse för entreprenörer.Studiens syfte är att jämföra fyra olika algoritmers prediceringsförmåga på två olika Kickstarter-dataset. Det ena datasetet sträcker sig mellan åren 2020-2021, och det andra mellan åren 2016-2021. Algoritmerna som jämförs är KNN, Naive Bayes, MLP, och Random Forest.Av dessa fyra modeller så skapades i denna studie de bästa produktionsmodellerna av KNN och Random Forest. KNN var bäst för 2020-2021-datasetet, med 77,0% träffsäkerhet. Random Forest var bäst för 2016-2021-datasetet, med 76,8% träffsäkerhet. / Crowdfunding has in the modern, digitalized world become a popular method for gathering money for a project. Kickstarter is one of the most popular websites for crowdfunding. This means that predicting the success or failure of a Kickstarter-project by way of machine learning could be of great interest to entrepreneurs.The purpose of this study is to compare the predictive abilities of four different algorithms on two different Kickstarter-datasets. One dataset contains data in the span of the years 2020-2021, and the other contains data from 2016-2021. The algorithms used in this study are KNN, Naive Bayes, MLP and Random Forest.Out of these four algorithms, the top-performing prediction abilities for the two datasets were found in KNN and Random Forest. KNN was the best-performing algorithm for 2020-2021, with 77,0% accuracy. Random Forest had the top score for 2016-2021, with 76,8% accuracy. The language used in this study is Swedish.
49

Modelling of Inflow and Infiltration into Wastewater Systems with Regression and Random Forest / Modellering av Inflöde och Infiltration i Avloppssystem med Regression och Random Forest

Steen Danielsson, Viggo January 2022 (has links)
The aim of this thesis was to evaluate the validity of statistical modelling, with regards to flow in wastewater systems based on precipitation. A wastewater system, which is a system of pump-stations connected via pipes, is affected by precipitation as rainwater enters the system. The rainwater that enters the system can sometimes, especially if the precipitation is heavy, increase the flow by several hundred percent. The goal with the models created for this report was, to first predict how much rainwater there was in the wastewater system based on precipitation, and second, to examine where in a geographical grid this rainwater entered the system. For the first goal a linear regression model was applied, this model showed that it was indeed possible to predict excess water in the system, but large errors for individual time points where to be expected, especially for light precipitation. For the second goal a random forest model was applied. This model however gave no additional insight beyond what an initial correlation study between precipitation in different parts of the geographical grid and flow had already shown. The areas in the geographical grid pointed out by both the random forest model and the initial correlation study were not the actual uptake areas of the pump-station these models were applied to. This leads to the conclusion that for the data set used, and with the models applied in the manner in which they were in this thesis, it was not possible to predict where rainwater enters the system. / Målet med den här rapporten var att undersöka möjligheten att modellera regnvattens påverkan på vattenflödet i avloppsystem, med statistiska modeller. Ett avloppsystem är i dess enklaste form ett nätverk av pumpstationer sammanbunda med rör. Det här systemen påverkas av nederbörd då oönskat regnvatten kommer in via stuprör, avloppsbrunnar och sprickor i rören. Regnvattnet kan i vissa fall, särskilt under perioder med mycket nederbörd, öka flödet i avloppsystemet med flera hundra procent. Modellerna tillverkade för den här rapporten undersökte två olika aspekter av regnvattnets påverkan: Kan flöde i avloppssystemet modelleras med regnvatten? Och kan modellerna avgöra var regnvatten kommer in i avloppsystemet? Den första frågan undersöktes med linjär regressionsanalys, modellerna tillverkade med regression visade att det gick att modellera flöde i avloppsystemet med regnvatten, det bör dock nämnas att stora fel i enskilda tidssteg var att förvänta, speciellt för modellering då nederbörden är låg. Den andra frågan utvärderades med en ”random forest” modell. Den här modellen gav ingen ytterligare information angående var regnvatten kommer in i systemet, utöver vad som redan hade visats av en korrelationsstudie gjord i början av projektet. Både korrelationsstudien och ”random forest” modellen visade också på att regnvattnet kom från platser som inte var sammankopplade med den pumpstation testerna gjordes på. På grund av detta drogs slutsatsen att det inte gick att ta reda på var regnvattnet kommer in i systemet, med den data som använts, och på det sätt som modellerna har använts i den här rapporten.
50

Improving Visibility Forecasts in Denmark Using Machine Learning Post-processing / Förbättring av siktprognoser i Danmark med hjälp av maskininlärning

Thomasson, August January 2023 (has links)
Accurate fog prediction is an important task facing forecast centers since low visibility can affect anthropogenic systems, such as aviation. Therefore, this study investigates the use of Machine Learning classification algorithms for post-processing the output of the Danish Meteorological Institute’s operational Numerical Weather Prediction (NWP) model to improve visibility prediction. Two decision tree ensemble methods, XGBoost and Random Forest, were trained on more than 4 years of archived forecast data and visibility observations from 28 locations in Denmark. Observations were classified into eight classes, while models were optimized with resampling and Bayesian optimization. On an independent 15-month period, the Machine Learning methods show an improvement in balanced accuracy, F1-score, and Extremal Dependency Index compared to the NWP and persistence models. XGBoost performs slightly better. However, both methods suffer from an increase in overprediction of the low visibility classes. The models are also discussed regarding usability, coping with model changes and preservation of spatial features. Finally, the study shows how the interpretation of the post-processing models may be included operationally. Future research recommendations include incorporating more variables, using alternative class imbalance methods and further analyzing the models’ implementation and usage. Overall, the study demonstrates the potential of these models to improve visibility point forecasts in an operational setting. / Begränsad sikt kan på olika sätt påverka samhällen och naturen. Till exempel kan dimma störa både flyg- och biltrafiken. Därför är det viktigt att kunna förutspå sikt. Eftersom traditionella prognosmetoder, som numeriska vädermodeller, inte alltid är tillförlitliga för detta ändamål, är det viktigt att utforska alternativa metoder. I den här studien undersöks användningen av maskininlärning för att förbättra numeriska prognoser av sikt. Två olika maskininlärningsalgoritmer användes för att post-processera Danmarks Meteorologiska Instituts numeriska vädermodell och de tränades på siktobservationer från 28 olika platser. Resultaten visar att maskininlärnings-metoderna förbättrar den numeriska vädermodellen, med 10 - 30% beroende på hur man mäter. Dock har algoritmerna en liten tendens att förutspå låg sikt för ofta, och båda är bättre på kustnära platser. Den bäst presterande av de två algoritmerna lyckas identifiera förväntade meteorologiska förhållande i samband med låg sikt. Dessutom presenteras en metod för att förbättra förståelsen av de post-processerade modellerna. Men det finns fortfarande utmaningar med att implementera metoden operationellt. Därför föreslås det att framtida studier bland annat undersöker om algoritmerna presterar bättre med fler väderparametrar, hur de presterar på nyaplatser samt att djupare analys av hur de hanterar updateringar till den numeriska vädermodellen görs. Sammanfattningsvis visar studien att maskininlärning är ett lovande verktyg för att förbättra numeriska prognoser av sikt.

Page generated in 0.11 seconds