1 |
Utvärdering av Transportstyrelsens flygtrafiksmodellerArvid, Odencrants, Dennis, Dahl January 2014 (has links)
The Swedish Transport Agency has for a long time collected data on a monthly basis for different variables that are used to make predictions, short projections as well as longer projections. They have used SAS for producing statistical models in air transport. The model with the largest value of coefficient of determination is the method that has been used for a long time. The Swedish Transport Agency felt it was time for an evaluation of their models and methods of how projections is estimated, they would also explore the possibilities to use different, completely new models for forecasting air travel. This Bachelor thesis examines how the Holt-Winters method does compare with SARIMA, error terms such as RMSE, MAPE, R2, AIC and BIC will be compared between the methods. The results which have been produced showing that there may be a risk that the Holt-Winters models adepts a bit too well in a few variables in which Holt-Winters method has been adapted. But overall the Holt-Winters method generates better forecasts . / <p>Avbryt / Spara utkast</p>
|
2 |
Machine learning for detecting financial crime from transactional behaviourEnglund, Markus January 2023 (has links)
Banks and other financial institutions are to a certain extent obligated to ensure that their services are not utilized for any type of financial crime. This thesis investigates the possibility of analyzing bank customers' transactional behaviour with machine learning to detect if they are involved in financial crime. The purpose of this is to see if a new approach to processing and analyzing transaction data could make financial crime detection more accurate and efficient. Transactions of a customer over a time period are processed to form multivariate time series. These time series are then used as input to different machine learning models for time series classification. The best method involves a transform called Random Convolutional Kernel Transform that extracts features from the time series. These features are then used as input to a logistic regression model that generates probabilities of the different class labels. This method achieves a ROC AUC-score of 0.856 when classifying customers as being involved in financial crime or not. The results indicate that the time series models detect patterns in transaction data that connect customers to financial crime which previously investigated methods have not been able to find.
|
3 |
Prognoser på försäkringsdata : En utvärdering av prediktionsmodeller för antal skador på den svenska försäkringsmarknadenBörsum, Jakob, Nyblom, Jakob January 2018 (has links)
The purpose of this report is to predict annual insurance data with quarterly data as predictors and to evaluate its accuracy against other naive prediction models. A relationship is discerned between the two data categories and the interest goes beyond publication frequency as there is a fundamental difference between quarterly and annual data. The insurance industry organization Insurance Sweden publishes quarterly data that contain all insurance events reported while the annual data only contain insurance events which led to disbursement from the insurance companies. This discrepancy shows to be problematic when predicting annual outcomes. Forecasts are estimated by ARIMA models on short time series and compared with classic linear regression models. The implied results from all insurance subcategories in traffic, motor vehicles and household- and corporate insurance are that, in some cases, prediction using linear regression on quarterly data is more precise than the constructed naive prediction models on annual data. However, the results vary between subcategories and the regression models using quarterly data need further improvement before it is the obvious choice when forecasting annual number of events that led to disbursements from the insurance companies.
|
4 |
Analys av nyhetsrapporteringars påverkan på värdet av tillgångar på den amerikanska aktiemarknadenWörman, Jacob January 2021 (has links)
Det är allmänt känt att aktiekurser beter sig som om de vore slumpvandringar (random walk), och att därmed prediktioner av framtida avkastning är svåra eller omöjliga att förbättra genom att ansätta någonting annat än det senaste observerade värdet. Samtidigt finns det forskning som visar att prediktioner är möjliga. Till exempel finns det idag forskning som menar att nyhetsrapporteringar med positiva ord om tillgången ger tendenser till ökad avkastning. Syftet med denna uppsats är att undersöka om antalet nyhetsrapporteringar och sentimentet på olika värdepapper på den amerikanska marknaden kan användas för att predicera avkastning. Vi har beräknat ett så kallat Sentiment score, som mäter en relation mellan antal positiva, negativa och neutrala ord i brödtext och titlar, för över 300 000 artiklar. Baserat på detta har vi tittat närmare på två strategier för att skapa portföljer: en strategi som använder regressionsanalys som knyter samman avkastningar och sentiment, och en mindre sofistikerad strategi som helt enkelt väljer de mest omskrivna tillgångarna. I en utvärdering har vi jämfört strategierna med jämförelseindex. Utvärderingen indikerar att den första strategin inte gav en avkastning som var bättre än jämförelseindex. Den andra strategin gav däremot avkastning som var signifikant bättre än avkastningen från jämförelseindex.
|
5 |
Interventionsanalys av Covidpandemins påverkan på antal flygpassagerare : En studie om flygandet i Sverige under år 2020Kåge, Linus, Marouki, Malke January 2021 (has links)
År 2020 drabbades Sverige och världen av en pandemin Covid-19. Pandemin har en stor påverkan på flygbranschen enligt tidigare undersökningar. Syftet med studien är att undersöka hur antalet flygpassagerare har påverkats av pandemin samt att jämföra om interventionsmodeller gör mindre prognosfel jämfört med ARIMA-modeller som inte inkluderar en variabel för pandemin. Interventionsanalys av Covid-19 genomförs för att studera effekten av pandemins påverkan på antal flygpassagerare som reser från svenska flygplatser. I mars 2020 gick utrikesdepartementet ut med rekommendation om att undvika onödiga resor för att undvika smittspridning. Interventionsmodeller för inrikes, utrikes och totala antalet flygpassagerare är framtagna. Interventionen betraktas inträffa i mars 2020. Pulsfunktion för maj behöver inkluderas i interventionsmodellen över inrikespassagerare och en pulsfunktion för april behöver modelleras med i interventionsmodellen över utrikespassagerare. För totala antalet flygpassagerare behöver enbart en stegfunktion inkluderas i modellen. Resultaten visar att under covidpandemin har antalet flygpassagerare minskat. Det totala antalet flygpassagerarehar minskat med närmare en miljon passagerare. Utrikespassagerare har minskat med närmare 682000 passagerare och ytterligare cirka 180000 passagerare under lägsta nivåer i april. Inrikespassagerare har minskat med ungefär 370000 passagerare och ytterligare 287000 passagerare i maj. Prognosmodellerna visar delade resultat. För inrikespassagerare blir prognosfelet inte lägre med interventionsmodellerna jämfört med en ARIMA-modell utan interventionseffekt. För utrikespassagerare blir prognosfelet lägre med interventionsmodellerna jämfört med ARIMA-modellen. Över total antalet flygpassagerare gör några av interventionsmodellerna bättre prognoser jämfört med ARIMA-modellen men samtidigt presterade några interventionsmodeller sämre än ARIMA-modellen. / In 2020, Sweden and the world were hit by the Covid-19 pandemic. The pandemic has a major impact on theflight industry according to previous studies. The purpose of this study is to estimate how the number of air passengers has been affected by the pandemic and to estimate models whose purpose is to make short-term forecasts. Intervention analysis is carried out to study the impact of the Covid-19 pandemic on the number of air passengers in Sweden. In March of 2020 the ministry of foreign affairs of Sweden announced a recommendation to avoid unnecessary travels to avoid spreading of the disease. Intervention models for domestic passengers, foreign passengers and the total number of air passengers have been produced. An impulse function for May needed to be included in the intervention model for domestic passengers and an impulse function for April needed to be included in the intervention model for foreign passengers. For the total number of air passengers only a step function for Covid-19 was required. The results show that the Covid-19 pandemic has affected the number of air passenger. The total number of air passengers has decreased by almost one million passengers. Foreign passengers have decreased by almost 682000 passengers and decreased by another 180000 passengers in April 2020. Domestic passengers decreased by approximately 375000 passengers and decreased by another 287000 passengers in May. The forecast models show varying results. For domestic passengers, the forecast errors were not lower for the intervention models compared to the ARIMA model without an intervention effect. For foreign passengers, the forecast errors were lower with the intervention models compared to the ARIMA model. For the total number of passengers, some of the intervention models made better forecasts compared to the ARIMA model, but at the same time some of the intervention models performed worse than the ARIMA model.
|
6 |
Time series Forecasting Incorporating Exogenous InformationOrunkara Poyil, Harilal January 2019 (has links)
The discussions on social media platforms reflect the views of masses on different ongoing long term events. The demand for different people-oriented services observes upsurge during the period of such long term events. Accurate forecasting of such time series data has a vital role in many business domains. In this project, we propose two deep learning based architectures for time series forecasting which incorporate exogenous information available from social media in both textual and numerical modalities. Our experiments show that compared to forecasting without exogenous information, adding numerical attributes yields approximately 1% increment in the forecasting accuracy while textual information causes a 6-9% reduction in the accuracy Our assumption on the result is that the collected exogenous data especially the textual information is insufficient in this problem context. Adding more related data from the same or multiple sources may improve the forecasting performance. / Diskussionerna på sociala medieplattformar återspeglar massornas åsikter om olika pågående långvariga händelser. Efterfrågan på olika människorinriktade tjänster observerar uppsving under perioden med sådana långsiktiga händelser. Noggrann prognos av sådana tidsseriedata har en viktig roll i många affärsområden. I detta projekt föreslår vi två djupa inlärningsbaserade arkitekturer för tidsserieprognoser som innehåller exogen information tillgänglig från sociala medier i både textuella och numeriska modaliteter. Våra experiment visar att jämförelse med prognoser utan exogen information, ger användandet av numeriska attribut ungefär 1% ökning i prognosprecisionen medan textinformation orsakar en 6-9% minskning i precision. Vårt antagande om resultatet är att den samlade exogena informationen, särskilt den textuella information är otillräcklig i detta problem. Att lägga till mer relaterade data från samma eller flera källor kan förbättra prognosprecisionen.
|
7 |
Assessment of building renovations using Ensemble LearningLieutier, Paul January 2023 (has links)
In the context of global warming, to reduce energy consumption, an unavoidable policy is to renovate badly-isolated buildings. However, most studies concerning efficiency of renovation work do not rely on energy data from smart meters but rather on estimates. To develop a precise tool to assess the quality of renovation work, several ensemble models were tested and compared with existing ones. Each model learns the consumption habits before the date of the works and then predicts what the energy load curve would have been if the works had not been realized. The prediction is finally compared to the actual energy load to infer the savings over the same dataset. The models were compared using precision and time complexity metrics. The best ensemble model’s precision scores are equivalent to the state-of-the-art. Moreover, the developed model is 32 times quicker to fit and predict. / I samband med den globala uppvärmningen är det oundvikligt att renovera dåligt isolerade byggnader för att minska energiförbrukningen. De flesta studier om renoveringsarbetenas effektivitet bygger dock inte på energidata från smarta mätare utan snarare på uppskattningar. För att utveckla ett exakt verktyg för att bedöma kvaliteten på renoveringsarbeten har flera ensemblemodeller testats och jämförts med befintliga modeller. Varje modell lär sig förbrukningsvanorna före arbetena och förutspår sedan hur energibelastningskurvan skulle ha sett ut om arbetena inte hade genomförts. Prognosen jämförs slutligen med den faktiska energilasten för att härleda besparingarna för samma dataset. Modellerna jämfördes med hjälp av precision och tidskomplexitet. Den bästa ensemblemodellens precisionspoäng är likvärdig med den bästa modellen. Dessutom är den utvecklade modellen 32 gånger snabbare att anpassa och förutsäga
|
8 |
Clustering of Financial Account Time Series Using Self Organizing Maps / Klustring av Finansiella Konton med Kohonen-kartorNordlinder, Magnus January 2021 (has links)
This thesis aims to cluster financial account time series by extracting global features from the time series and by using two different dimensionality reduction methods, Kohonen Self Organizing Maps and principal component analysis, to cluster the set of the time series by using K-means. The results are then used to further cluster a set of financial services provided by a financial institution, to determine if it is possible to find a set of services which coincide with the time series clusters. The results find several sets of services that are prevalent in the different time series clusters. The resulting method can be used to understand the dynamics between deposits variability and the customers usage of different services and to analyse whether a service is more used in different clusters. / Målet med denna uppsats är att klustra tidsserier över finansiella konton genom att extrahera tidsseriernas karakteristik. För detta används två metoder för att reducera tidsseriernas dimensionalitet, Kohonen Self Organizing Maps och principal komponent analys. Resultatet används sedan för att klustra finansiella tjänster som en kund använder, med syfte att analysera om det existerar ett urval av tjänster som är mer eller mindre förekommande bland olika tidsseriekluster. Resultatet kan användas för att analysera dynamiken mellan kontobehållning och kundens finansiella tjänster, samt om en tjänst är mer förekommande i ett tidsseriekluster.
|
9 |
Extending the ROCKET Machine Learning algorithm to improve Multivariate Time Series classification / Utökning av maskininlärningsalgoritmen ROCKET för att förbättra dess multivariata tidsserieklassificeringSolana i Carulla, Adrià January 2024 (has links)
Medan normen i tidsserieklassificering (TSC) har varit att förbättra noggrannheten, har nya modeller med fokus på effektivitet nyligen fått uppmärksamhet. I synnerhet modeller som kallas ROCKET"(RandOm Convolutional KErnel Transform), som fungerar genom att slumpmässigt generera ett stort antal kärnor som används som funktionsextraktorer för att träna en enkel åsklassificerare, kan prestera lika bra som andra toppmoderna algoritmer, samtidigt som de har en betydande ökning i effektivitet. Även om ROCKET-modeller ursprungligen designades för Univariate Time Series (UTS), som definieras av en enda kanal eller sekvens, har dessa klassificerare också visat utmärkta resultat när de testats på Multivariate Time Series (MTS), där egenskaperna för tidsserien är spridda över flera kanaler. Därför är det av vetenskapligt intresse att utforska dessa modeller för att bedöma deras övergripande prestanda och om effektiviteten kan förbättras ytterligare. Nyligen genomförda studier presenterar en ny algoritm som kallas Sequential Feature Detachment (SFD) som, förutom ROCKET, avsevärt kan minska storleken på modellerna samtidigt som noggrannheten ökar något genom en sekventiell funktionsvalsteknik. Trots dessa anmärkningsvärda resultat var experimenten som ledde till slutsatserna begränsade till användningen av UTS, vilket lämnade utrymme för utforskningen av denna algoritm på MTS. Följaktligen undersöker denna studie hur man kan utnyttja ROCKET-algoritmer och SFD för att förbättra MTS-klassificeringsuppgifter vad gäller både effektivitet och noggrannhet, samtidigt som god tolkningsbarhet bibehålls som en begränsning. För att uppnå detta genomförs experiment på flera University of East Anglia (UEA) MTS-datauppsättningar, testar modellensembler, grupperar kanaler baserat på förutsägbarhet och undersöker kanalrelevanser tillsammans med SFD. Resultaten visar hur modellanpassning inte är en metod som kan öka noggrannheten i testuppsättningarna och hur förutsägbarheten för enskilda kanaler inte bibehålls längs datapartitioner. Det visas dock hur användning av SFD med MiniROCKET, en variant av ROCKET som inkluderar slumpmässiga kanalkombinationer, inte bara förbättrar klassificeringsresultaten, utan också ger ett statistiskt signifikant kanalrelevansmått. / While the norm in Time Series Classification (TSC) has been to improve accuracy, new models focusing on efficiency have recently been attracting attention. In particular, models known as ”ROCKET” (RandOm Convolutional KErnel Transform), which work by randomly generating a large number of kernels used as feature extractors to train a simple ridge classifier, can yield results as good as other state-of-the-art algorithms while presenting a significant increase in efficiency. Although ROCKET models were originally designed for Univariate Time Series (UTS), which are defined by a single channel or sequence, these classifiers have also shown excellent results when tested on Multivariate Time Series (MTS), where the characteristics of the time series are spread across multiple channels. Therefore, it is of scientific interest to explore these models to assess their overall performance and whether efficiency can be further improved. Recent studies present a novel algorithm named Sequential Feature Detachment (SFD) which, on top of ROCKET, can significantly reduce the model size while slightly increasing accuracy through a sequential feature selection technique. Despite these remarkable results, the experiments leading to the conclusions were limited to the use of UTS, leaving room for the exploration of this algorithm on MTS. Consequently, this thesis evaluates different strategies to implement ROCKET and SFD algorithms for MTS classification tasks, focusing not only on improving efficiency and accuracy, but also on adding interpretability to the classifier. To achieve this, experiments were conducted by testing model ensembles, grouping channels based on predictability, and examining channel relevances alongside SFD. The University of East Anglia (UEA) MTS archive was used to evaluate the resulting models, as it is common with TSC algorithms. The results demonstrate that model ensembling does not increase accuracy in the test sets and that the predictability of individual channels is not maintained across dataset splits. However, the study shows that using SFD with MiniROCKET, a variant of ROCKET that includes random channel combinations, not only can improve classification results but also provide a statistically significant channel relevance measure.
|
10 |
Imputation and Generation of Multidimensional Market DataWall, Tobias, Titus, Jacob January 2021 (has links)
Market risk is one of the most prevailing risks to which financial institutions are exposed. The most popular approach in quantifying market risk is through Value at Risk. Organisations and regulators often require a long historical horizon of the affecting financial variables to estimate the risk exposures. A long horizon stresses the completeness of the available data; something risk applications need to handle. The goal of this thesis is to evaluate and propose methods to impute financial time series. The performance of the methods will be measured with respect to both price-, and risk metric replication. Two different use cases are evaluated; missing values randomly place in the time series and consecutively missing values at the end-point of a time series. In total, there are five models applied to each use case, respectively. For the first use case, the results show that all models perform better than the naive approach. The Lasso model lowered the price replication error by 35% compared to the naive model. The result from use case two is ambiguous. Still, we can conclude that all models performed better than the naive model concerning risk metric replication. In general, all models systemically underestimated the downstream risk metrics, implying that they failed to replicate the fat-tailed property of the price movement.
|
Page generated in 0.0922 seconds