Global ETD Search

21	Correction of Inhomogeneous Data in the Precipitation Time Series of Sweden Due to the Wind Shield Introduction / Korrigering av inhomogenitet i tidsserier av nederbördsdata i Sverige orsakade av införandet av vindskydd Sofokleous, Ioannis January 2016 (has links) The work of this master thesis is based on analyses of monthly precipitation data from 70 stations of the SMHI (Swedish Meteorological and Hydrological Institute) in Sweden, in the period 1860-2014, using the information for the year of introduction of the wind shield at each station. The primary goal is the calculation of correction factors which will be applied on the precipitation data in the period of measurements before the introduction of the wind shield. This correction will counterbalance the underestimation of the collected precipitation by the unshielded precipitation gauges due to the effect of the wind. The wind induced error, related to aerodynamical effects, increases with increasing wind speed. The stronger the wind, the more capable it is of deflecting the precipitation water droplets or snowflakes, falling towards the gauge orifice, away from it. In spite of the important efficiency of the wind shield which acts to diminish the wind error, the long-term effect of changing the measuring instrumentation at some time in the observations history is the production of inhomogeneous data in the measurements records. Inhomogeneous precipitation data are sources of errors in climatology and hydrology and result in misleading conclusions regarding the climate change and climate variations, hence they should be identified and corrected through a homogenization method. The analysis includes the comparison of the precipitation data of each station during two periods, one before and one after the introduction of the wind shield. This comparison leads to the calculation of ratios representing the increase in the catch between the two periods due to the introduction of the wind shield. Temperature data are also processed in order to estimate the type of precipitation (snow/rain) in each case. The monthly corrections ranged between 5 %, for rain, and 27 % for snow precipitation. The absolute value of the increase of the average annual precipitation due the implementation of the correction was 50 mm. The comparison of the corrected against the uncorrected precipitation time series indicated a less pronounced increase (0.74 mm/y) of the precipitation during the last 150 years, after the application of the correction, compared to the increase indicated from the uncorrected data (1.19 mm/y). / Kontinuerliga samt felfria nederbördsmätningar är av stor betydelse för geovetenskaper som klimatologi och hydrologi därför att nederbördsdata är en av de primära meteorologiska parametrarna för forskning om klimatförändringen. Att säkerställa felfria (homogena) nederbörds tidsserier betyder i stort sett att säkerställa homogenitet genom att identifiera och korrigera inhomogena data. Icke homogena data uppkommer på grund av förändringar i mätmetoder och mätförhållanden under observationstiden, sedan 1860-talet tills idag alltså. Denna studies syfte är att beräkna en korrektion som ska användas för att korrigera nederbördsmätningar som utfördes sedan 1860 utan vinskydd. Vindskyddet eller vindskärmen, en speciell utrustning som användas på nederbördsinsamlare, infördes gradvis under perioden 1900-1960 vid de svenska nederbördstationerna. Vindskyddet introducerades med avsikt att minska vindens påverka vid nederbördsinsamling. Men trotts den positiva effekten som vindskyddet ledde till, genom den ökade nederbördsmängden som samlades in, skapade denna förändring av mätarutrustningen inhomogena data. Bearbetningen skedde för månadsnederbördsdata från 70 stationer från SMHIs meteorologiska nätverk genom att jämföra nederbördsobservationer som genomfördes under perioderna tio år före och tio år efter införandet av vindskydd. Dessutom användes temperaturdata från samma stationer för att uppskatta nederbördslag (snö/regn). Skälet till detta är att vinskyddseffekten är olika mellan snö och regn. Beräkningarna och bestämningen av nederbördslag ledde till en 5 % respektive 27 % nederbörds ökning för regn och snö för de mätningarna som utfördes utan vindskydd. I genomsnitt har de korrigerade värdena, under perioden som vinskyddet saknades, ökat med omkring 50 mm. Precipitation data correction precipitation time series homogenization of precipitation data wind shield wind screen aerodynamic wind error Nederbördsdatakorrektion nederbörds tidsserier inhomogena nederbördsdata vindskydd vindskärm aerodynamiska vindfel
22	Scalable Gaussian Process Regression for Time Series Modelling / Skalerbar Gaussisk process regression för modellering av tidsserier Boopathi, Vidhyarthi January 2019 (has links) Machine learning algorithms has its applications in almost all areas of our daily lives. This is mainly due to its ability to learn complex patterns and insights from massive datasets. With the increase in the data at a high rate, it is becoming necessary that the algorithms are resource-efficient and scalable. Gaussian processes are one of the efficient techniques in non linear modelling, but has limited practical applications due to its computational complexity. This thesis studies how parallelism techniques can be applied to optimize performance of Gaussian process regression and empirically assesses parallel learning of a sequential GP and a distributed Gaussian Process Regression algorithm with Random Projection approximation implemented in SPARK framework. These techniques were tested on the dataset provided by Volvo Cars. From the experiments, it is shown that training the GP model with 45k records or 219 ≈106 data points takes less than 30 minutes on a spark cluster with 8 nodes. With sufficient computing resources these algorithms can handle arbitrarily large datasets. / Maskininlärningsalgoritmer har sina applikationer inom nästan alla områden i vårt dagliga liv. Detta beror främst på dess förmåga att lära sig komplexa mönster och insikter från massiva datamängder. Med ökningen av data i en hög takt, blir det nödvändigt att algoritmerna är resurseffektiva och skalbara. Gaussiska processer är en av de effektiva teknikerna i icke-linjär modellering, men har begränsade praktiska tillämpningar på grund av dess beräkningskomplexitet. Den här uppsatsen studerar hur parallellismtekniker kan användas för att optimera prestanda för Gaussisk processregression och utvärderar parallellt inlärning av en sekventiell GP och distribuerad Gaussian Process Regression algoritm med Random Projection approximation implementerad i SPARK ramverk. Dessa tekniker testades på en datamängd från Volvo Cars. Från experimenten visas att det krävs mindre än 30 minuter att träna GP-modellen med 45k poster eller 219 ≈106 datapunkter på ett Spark-kluster med 8 noder. Med tillräckliga datoressurser kan dessa algoritmer hantera godtyckligt stora datamängder. Distributed Machine learning Spark Gaussian Processes Regression Time series Distribuerad maskininlärning Spark Gaussiska processer Regression Sensormodellering Tidsserier Computer and Information Sciences Data- och informationsvetenskap
23	Readjusting Historical Credit Ratings : using Ordered Logistic Regression and Principal ComponentAnalysis Cronstedt, Axel, Andersson, Rebecca January 2018 (has links) Readjusting Historical Credit Ratings using Ordered Logistic Re-gression and Principal Component Analysis The introduction of the Basel II Accord as a regulatory document for creditrisk presented new concepts of credit risk management and credit risk mea-surements, such as enabling international banks to use internal estimates ofprobability of default (PD), exposure at default (EAD) and loss given default(LGD). These three measurements is the foundation of the regulatory capitalcalculations and are all in turn based on the bank’s internal credit ratings. Ithas hence been of increasing importance to build sound credit rating modelsthat possess the capability to provide accurate measurements of the credit riskof borrowers. These statistical models are usually based on empirical data andthe goodness-of-fit of the model is mainly depending on the quality and sta-tistical significance of the data. Therefore, one of the most important aspectsof credit rating modeling is to have a sufficient number of observations to bestatistically reliable, making the success of a rating model heavily dependenton the data collection and development state.The main purpose of this project is to, in a simple but efficient way, createa longer time series of homogeneous data by readjusting the historical creditrating data of one of Svenska Handelsbanken AB’s credit portfolios. Thisreadjustment is done by developing ordered logistic regression models thatare using independent variables consisting of macro economic data in separateways. One model uses macro economic variables compiled into principal com-ponents, generated through a Principal Component Analysis while all othermodels uses the same macro economic variables separately in different com-binations. The models will be tested to evaluate their ability to readjust theportfolio as well as their predictive capabilities. / Justering av historiska kreditbetyg med hjälp av ordinal logistiskregression och principialkomponentsanalys När Basel II implementerades introducerades även nya riktlinjer för finan-siella instituts riskhantering och beräkning av kreditrisk, så som möjlighetenför banker att använda interna beräkningar av Probability of Default (PD),Exposure at Default (EAD) och Loss Given Default (LGD), som tillsammansgrundar sig i varje låntagares sannoliket för fallissemang. Dessa tre mått ut-gör grunden för beräkningen av de kapitaltäckningskrav som banker förväntasuppfylla och baseras i sin tur på bankernas interna kreditratingsystem. Detär därmed av stor vikt för banker att bygga stabila kreditratingmodeller medkapacitet att generera pålitliga beräkningar av motparternas kreditrisk. Dessamodeller är vanligtvis baserade på empirisk data och modellens goodness-of-fit,eller passning till datat, beror till stor del på kvalitén och den statistiska sig-nifikansen hos det data som står till förfogande. Därför är en av de viktigasteaspekterna för kreditratingsmodeller att ha tillräckligt många observationeratt träna modellen på, vilket gör modellens utvecklingsskede samt mängdendata avgörande för modellens framgång.Huvudsyftet med detta projekt är att, på ett enkelt och effektivt sätt, skapaen längre, homogen tidsserie genom att justera historisk kreditratingdata i enportfölj med företagslån tillhandahållen av Svenska Handelsbanken AB. Jus-teringen görs genom att utveckla olika ordinala logistiska regressionsmodellermed beroende variabler bestående av makroekonomiska variabler, på olikasätt. En av modellerna använder makroekonomiska variabler i form av princi-palkomponenter skapade med hjälp av en principialkomponentsanalys, medande andra modelelrna använder de makroekonomiska variablerna enskilt i olikakombinationer. Modellerna testas för att utvärdera både deras förmåga attjustera portföljens historiska kreditratings samt för att göra prediktioner. Ordered Logistic Regression Principal Component Analysis MacroEconomic Variables Credit Risk Credit Ratings Multivariate Time SeriesData Ordinal logistisk regression Principalkomponentanalys Makro-ekonomiska variabler Kreditratings Multivariata tidsserier Mathematics Matematik
24	Marginaler för morgondagen : En kvantitativ analys av flexibiliteten hos aggregerade laddande elbilar / Margins for tomorrow : A quantitative analysis of the flexibility from aggregated electric vehicles Karlén, Albin, Genas, Sebastian January 2021 (has links) Elektrifieringen av bilflottan sker i rasande takt. Även andra samhällssektorers efterfrågan på el väntas öka drastiskt under kommande decennier, vilket i kombination med en växande andel intermittenta energikällor trappar upp påfrestningarna på elnätet och ställer krav på anpassningar. En föreslagen dellösning till kraftsystemets kommande utmaningar är att utnyttja efterfrågeflexibiliteten i laddande elbilar genom att en aggregator styr ett stort antal elbilsladdare och säljer den sammanlagda kapaciteten på till exempel Svenska kraftnäts stödtjänstmarknader. För att avgöra hur mycket flexibilitet som elbilsladdning kan bidra med behöver aggregatorn upprätta prognoser över hur mycket effekt som mest sannolikt finns tillgänglig vid en viss tidpunkt – en punktprognos – men också en uppskattning av vilken effektnivå man kan vara nästan säker på att utfallet överstiger – en kvantilprognos. I den här studien har en undersökning gjorts av hur prognosfelet förändras om gruppen av aggregerade elbilsladdare ökas, och hur mycket en aggregator på så sätt kan sänka sina marginaler vid försäljning av efterfrågeflexibiliteten för att med säkerhet kunna uppfylla sitt bud. Det gjordes genom att kvantifiera flexibiliteten för 1 000 destinationsladdare belägna vid huvudsakligen arbetsplatser, och genom att skala upp och ner datamängden genom slumpmässiga urval. För dessa grupper gjordes sedan probabilistiska prognoser av flexibiliteten med en rullande medelvärdes- och en ARIMA-modell. Utifrån prognoserna simulerades slutligen potentiella intäkter om aggregatorn skulle använda den flexibla kapaciteten för uppreglering till stödtjänsten FCR-D upp, vilket är en frekvensreserv som aktiveras vid störningar av nätfrekvensen. Resultaten visar att en tiodubbling av antalet aggregerade elbilsladdare mer än halverar det relativa prognosfelet. De båda prognosmodellerna visade sig ha jämförbar precision, vilket talar för att använda sig av den rullande medelvärdesmetoden på grund av dess lägre komplexitet. Den ökade säkerheten i prognosen resulterade dessutom i högre intäkter per laddare. De genomsnittliga intäkterna av att leverera flexibilitet från 1 000 aggregerade elbilsladdare till FCR-D uppgick till 6 900 kr per månad, eller 0,8 kr per session – siffror som troligen hade varit högre utan coronapandemins ökade hemarbete. En 99-procentig konfidensgrad för kvantilprognosen resulterade i en säkerhetsmarginal med varierande storlek, som i genomsnitt var runt 90 procent för 100 laddpunkter, 60 procent för 1 000 laddpunkter samt 30 procent för 10 000 laddpunkter. Mest flexibilitet fanns tillgänglig under vardagsförmiddagar då ungefär 600 kW fanns tillgängligt som mest för 1 000 laddpunkter. Att döma av tio års nätfrekvensdata är den sammanlagda sannolikheten för att över 50 procent aktivering av FCR-D-budet skulle sammanfalla med att utfallet för den tillgängliga kapaciteten är en-på-hundra-låg i princip obefintlig – en gång på drygt 511 år. Att aggregatorn lägger sina bud utifrån en 99-procentig konfidensgrad kan alltså anses säkert. / The electrification of the car fleet is taking place at a frenetic pace. Additionally, demand for electricity from other sectors of the Swedish society is expected to grow considerably in the coming decades, which in combination with an increasing proportion of intermittent energy sources puts increasing pressure on the electrical grid and prompts a need to adapt to these changes. A proposed solution to part of the power system's upcoming challenges is to utilize the flexibility available from charging electric vehicles (EVs) by letting an aggregator control a large number of EV chargers and sell the extra capacity to, for example, Svenska kraftnät's balancing markets. To quantify how much flexibility charging EVs can contribute with, the aggregator needs to make forecasts of how much power that is most likely available at a given time – a point forecast – but also an estimate of what power level the aggregator almost certainly will exceed – a quantile forecast. In this study, an investigation has been made of how the forecast error changes if the amount of aggregated EV chargers is increased, and how much an aggregator can lower their margins when selling the flexibility to be able to deliver according to the bid with certainty. This was done by quantifying the flexibility of 1000 EV chargers located at mainly workplaces, and by scaling up and down the data through random sampling. For these groups, probabilistic forecasts of the flexibility were then made with a moving average forecast as well as an ARIMA model. Based on the forecasts, potential revenues were finally simulated for the case where the aggregator uses the available flexibility for up-regulation to the balancing market FCR-D up, which is a frequency containment reserve that is activated in the event of disturbances. The results show that a tenfold increase in the number of aggregated EV chargers more than halves the forecast error. The two forecast models proved to have comparable precision, which suggests that the moving average forecast is recommended due to its lower complexity compared to the ARIMA model. The increased precision in the forecasts also resulted in higher revenues per charger. The average income from delivering flexibility from 1000 aggregated electric car chargers to FCR-D amounted to SEK 6900 per month, or SEK 0.8 per session – figures that would probably have been higher without the corona pandemic's increased share of work done from home. A 99 percent confidence level for the quantile forecast resulted in a safety margin of varying size, which on average was around 90 percent for 100 chargers, 60 percent for 1000 chargers and 30 percent for 10,000 chargers. Most flexibility was shown to be available on weekday mornings when approximately 600 kW was available at most for 1000 chargers. By examining frequency data for the Nordic power grid from the past ten years, the joint probability that a more than 50 percent activation of the FCR-D bid would coincide with the outcome for the available capacity being one-in-a-hundred-low, was concluded to be nearly non-existent – likely only once in about 511 years. For the aggregator to place bids based on a 99 percent confidence level can thus be considered safe. Electric car charging energy forecasting balance markets flexibility smart charging demand response ancillary services time series Elbilsladdning energiprognostisering balansmarknader flexibilitet smart laddning efterfrågeflexibilitet stödtjänster tidsserier Energy Systems Energisystem
25	Transformation of Time-based Sensor Data to Material Quality Data in Stainless Steel Production Inersjö, Adam January 2020 (has links) Quality assurance in the stainless steel production requires large amounts of sensor data to monitor the processing steps. Digitalisation of the production would allow higher levels of control to both evaluate and increase the quality of the end products. At Outokumpu Avesta Works, continuous processing of coils creates sensor data without connecting it to individual steel coils, a connection needed to achieve the promises of digitalisation. In this project, the time series data generated from 12 sensors in the continuous processing was analysed and four alternative methods to connect the data to coils were presented. A method based on positional time series was deemed the most suitable for the data and was selected for implementation over other methods that would apply time series analysis on the sensor data itself. Evaluations of the selected method showed that it was able to connect sensor data to 98.10 % of coils, just short of reaching the accuracy requirement of 99 %. Because the overhead of creating the positional time series was constant regardless of the number of sensors, the performance per sensor improved with increased number of sensors. The median processing time for 24 hours of sensor data was less than 20 seconds per sensor when batch processing eight or more sensors. The performance for processing fewer than four sensors was not as good, requiring further optimization to reach the requirement of 30 seconds per sensor. Although the requirements were not completely fulfilled, the implemented method can still be used on historical production data to facilitate further quality estimation of stainless steel coils / Kvalitetssäkring av rostfritt stål produktion kräver stora mängder av sensordata för att övervaka processtegen. Digitalisering av produktionen skulle ge större kontroll för att både bedöma och öka kvaliteten på slutprodukterna. Vid Outokumpu Avesta Works skapas sensordata vid kontinuerlig bearbetning av stålband utan att datan sammankopplas till enskilda band, trots att denna sammankoppling krävs för att uppnå löftena som digitaliseringens ger. I detta projekt analyserades tidsseriedata från 12 sensorer vid den kontinuerliga bearbetningen av band och fyra alternativa metoder för att sammankoppla sensordatan till stålband presenterades. En metod som byggde på tidsserier med positionsvärden bedömdes vara mest passande för sensordatan och valdes för implementation över andra metoder som byggde på tidsserieanalys av själva sensordatan. Evaluering av den valda metoden visade att den kunde sammankoppla sensordata till 98.10 % av ståldbanden, något lägre än kravet på 99 % korrekthet. På grund av att skapandet av tidsserierna med positionsvärden tog lika lång tid oberoende av antalet sensorer så förbättrades bearbetningstiden desto fler sensorer som bearbetades. För bearbetning av 24 timmar av sensordata låg median bearbetningstiden på mindre än 20 sekunder per sensor när åtta eller fler sensorer bearbetades tillsammans. Prestandan för bearbetning av färre än fyra sensorer var inte lilka bra och kräver ytterliga optimering för att nå kravet på 30 sekunder per sensor. Fastän kraven på metoden inte uppnåddes till fullo kan den implementerade metoden ändå användas på historisk data för att främja kvalitetsbedömning av rostfria stålband. Time series Stainless steel Steel Sensor data Digitalization Aggregation Continuous production Outokumpu Tidsserier Rostfritt stål Stål Sensordata Digitalisering Aggregering Kontinuerlig produktion Outokumpu Computer and Information Sciences Data- och informationsvetenskap
26	Transfer learning techniques in time series analysis Sablons de Gélis, Robinson January 2021 (has links) Deep learning works best with vast andd well-distributed data collections. However, collecting and annotating large data sets can be very time-consuming and expensive. Moreover, deep learning is specific to domain knowledge, even with data and computation. E.g., models trained to classify animals would probably underperform when they classify vehicles. Although techniques such as domain adaptation and transfer learning have been popularised recently, tasks in cross-domain knowledge transfer have also taken off. However, most of these works are limited to computer vision. In the domain of time series, this is relatively underexplored. This thesis explores methods to use time series data from one domain to classify data generated from another domain via transfer learning. It focuses on using accelerometer data from running recordings to improve the classification performance on jumping data based on the apparent similarity of individual recordings. Thus, transfer learning and domain adaptation techniques were used to use the learning acquired through deep model training on running sequences. This thesis has performed four experiments to test this domain similarity. The first one consists of transforming time series with the continuous wavelet transform to get both time and frequency information. The model is then pre-trained within a contrastive learning framework. However, the continuous wavelet transformation (CWT) did not improve the classification results. The following two experiments consisted of pre-training the models with self-supervised learning. The first one with a contrastive pretext-task improved the classification results, and the resilience to data decrease. The second one with a forward forecasting pretext-task improved the results when all the data was available but was very sensitive to data decrease. Finally, the domain adaptation was tested and showed interesting performances on the classification task. Although some of the employed techniques did not show improvement, pre-training using contrastive learning on the running dataset has shown great improvement to classify the jumping dataset. / Djupinlärning fungerar bäst med stora och väl distribuerade datasamlingar. Det kan dock vara mycket tidskrävande och dyrt att samla in och kommentera stora datamängder. Även med alla data och beräkningar är djupinlärning specifik för domänkunskap. Exempelvis skulle modeller som tränats för att klassificera djur förmodligen underprestera när de klassificerar fordon. Även om tekniker som domänanpassning och överföringsinlärning har populariserats på senare tid, har även uppgifter inom kunskapsöverföring mellan olika domäner tagit fart. De flesta av dessa arbeten är dock begränsade till datorseende. Inom tidsseriernas område är detta relativt outforskat. I den här avhandlingen undersöks metoder för att använda tidsseriedata från en domän för att klassificera data från en annan domän med hjälp av djupinlärning. Fokus ligger på att använda accelerometerdata från löpning för att förbättra klassificeringen av hoppdata, baserat på den uppenbara likheten mellan löpning och hoppning. Således användes tekniker för överföringsinlärning och domänanpassning för att använda den inlärning som förvärvats genom träning av djupa modeller på löpsekvenser. I den här avhandlingen har fyra experiment utförts för att testa denna domänlikhet. Det första består av att omvandla tidsserier med den kontinuerliga wavelettransformen för att få fram både tids- och frekvensinformation. Modellen förtränas sedan inom en ram för kontrastiv inlärning. Användningen av CWT förbättrade dock inte klassificeringsresultaten. De följande två experimenten bestod av att förträna modellerna med självövervakad inlärning. Det första försöket med en kontrasterande förtextuppgift förbättrade klassificeringsresultaten och motståndskraften mot dataförlust. Det andra försöket med en prognostiserande förtextuppgift förbättrade resultaten när alla data var tillgängliga, men var mycket känslig för dataförlust. Slutligen testades domänanpassningen och visade intressanta resultat i klassificeringsuppgiften. Även om några av de använda teknikerna inte visade någon förbättring, har förträning med hjälp av kontrastinlärning på löpande dataset visat sig ge stora förbättringar när det gäller klassificering av hoppdata. Deep learning Time series Transfer learning Self-supervised learning Domain adaptation Djupinlärning tidsserier överföringsinlärning självövervakad inlärning domänanpassning Computer and Information Sciences Data- och informationsvetenskap
27	An iterative design process for visualizing historical air temperature recordings effectively in a single display : A user study on narrative visualizations of geospatial time-dependent data / En iterativ designprocess for att visualisera historiska lufttemperaturer mätningar effektivt i en enda vy : En användarstudie på narrativa visualiseringar av geografisk och tidsberoende data Kangas, Jussi January 2021 (has links) How to represent data visually in an intuitive and effective way for gaining quick insights is something that the field of visualization deals with. Effective in this context means that a visualization can be understood accurately or rapidly by the viewer. However, how to visualize geospatial time series data effectively is challenging. The challenge consists of how to visualize geospatial time-dependent data in a single view that can provide both an effective overview and details of the data set. With three or more data dimensions the available coding options grows; hence, the challenge consists in combining several visual coding and viewing options into a single effective view. This thesis investigated visualization guidelines that should promote effectivness for a visualization of geospatial time-dependent data. Furthermore, in this project the data set consisted of historical air temperature measurements in Sweden, which has both geospatial and time-dependent features. The guidelines where used in an iterative design process to redesign an existing geospatial time series visualization. The goal of the redesign was to increase the effectiveness of the existing visualization. An alternative visualization was created and compared to the original visualization in a user study. The results indicate that these users experienced the alternative visualization as more effective than the original. However, the performance of the participants on four tasks indicates that the alternative visualization is not more effective. Furthermore, compared to related work the alternative visualization is not more effective. In conclusion, the alternative visualization is harder to learn than the original which may have an effect on the user’s performance. However, once the visualization is learned, then it may be more effective than the original visualization. Additionally, the use of guidelines was helpful in the design process but, in this case, did not guarantee an effective visualization. / Hur data bör representeras visuellt på ett intuitivt och effektivt sätt undersöks i det vetenskapliga fältet om visualiseringar. Vidare är det utmanande hur geografiska tidsserier ska visualiserar. Utmaningen består i hur en enda visualiserings vy ska skapas som både kan ge en överblick över data och detaljer om specifika data punkter. Anledning till att detta är utmanande är att med fler data dimensioner blir även de möjliga visuella kodnings möjligheterna flera. Därför består utmaningen i hur olika visuella kodningssätt och vyer ska kombineras i en enda vy effektivt. För att designa en effektiv vy undersöktes olika designriktlinjer kopplade till effektivitet. Dessa riktlinjer användes sedan för att designa om en existerande geografisk tidsserie visualisering in en iterativ designprocess. Data som visualiserades var historiska lufttemperaturmätningar i Sverige, en datamängd med både geografiska och tidsberoende komponenter. Den skapade alternativa visualiseringen jämfördes med originalet med hänsyn till effektivitet i en användarstudie. Resultaten tyder på att användarna uppfattar den alternativa visualiseringen som mer effektiv än originalet. Men prestations resultatet på fyra uppgifter tyder inte på att den alternativa visualiseringen skulle vara effektivare. Vidare, jämfört med relaterade arbeten är inte den alternative visualiseringen mer effektiv. Sammanfattningsvis är den alternativa visualiseringen svårare att lära sig än originalet, vilken kan påverka användarnas prestation. Men när användarna lärt sig att använda den alternativa visualiseringen, kan den alternativa vara effektivare att använda än originalet. Vidare är designriktlinjerna användbara i en designprocess men, ingen garanti för en effektiv visualisering i detta fall. Information visualization Air temperature Effective Geographic visualization Time series Evaluation Informations Visualisering Lufttemperatur Effektiv Geografisk Visualisering Tidsserier Utvärdering Computer Sciences Datavetenskap (datalogi)
28	Evaluating clustering techniques in financial time series Millberg, Johan January 2023 (has links) This degree project aims to investigate different evaluation strategies for clustering methodsused to cluster multivariate financial time series. Clustering is a type of data mining techniquewith the purpose of partitioning a data set based on similarity to data points in the same cluster,and dissimilarity to data points in other clusters. By clustering the time series of mutual fundreturns, it is possible to help individuals select funds matching their current goals and portfolio. Itis also possible to identify outliers. These outliers could be mutual funds that have not beenclassified accurately by the fund manager, or potentially fraudulent practices. To determine which clustering method is the most appropriate for the current data set it isimportant to be able to evaluate different techniques. Using robust evaluation methods canassist in choosing the parameters to ensure optimal performance. The evaluation techniquesinvestigated are conventional internal validation measures, stability measures, visualizationmethods, and evaluation using domain knowledge about the data. The conventional internalvalidation methods and stability measures were used to perform model selection to find viableclustering method candidates. These results were then evaluated using visualization techniquesas well as qualitative analysis of the result. Conventional internal validation measures testedmight not be appropriate for model selection of the clustering methods, distance metrics, or datasets tested. The results often contradicted one another or suggested trivial clustering solutions,where the number of clusters is either 1 or equal to the number of data points in the data sets.Similarly, a stability validation metric called the stability index typically favored clustering resultscontaining as few clusters as possible. The only method used for model selection thatconsistently suggested clustering algorithms producing nontrivial solutions was the CLOSEscore. The CLOSE score was specifically developed to evaluate clusters of time series bytaking both stability in time and the quality of the clusters into account. We use cluster visualizations to show the clusters. Scatter plots were produced by applyingdifferent methods of dimension reduction to the data, Principal Component Analysis (PCA) andt-Distributed Stochastic Neighbor Embedding (t-SNE). Additionally, we use cluster evolutionplots to display how the clusters evolve as different parts of the time series are used to performthe clustering thus emphasizing the temporal aspect of time series clustering. Finally, the resultsindicate that a manual qualitative analysis of the clustering results is necessary to finely tune thecandidate clustering methods. Performing this analysis highlights flaws of the other validationmethods, as well as allows the user to select the best method out of a few candidates based onthe use case and the reason for performing the clustering. clustering machine learning financial time series time series unsupervised learning cluster validation cluster evaluation klustring klusteranalys finansiella tidsserier maskininlärning klustervalidering evalueringsteknik Computer and Information Sciences Data- och informationsvetenskap
29	A Comparative Analysis of Database Management Systems for Time Series Data / En jämförelse av databashanteringssystem för tidsseriedata Verner-Carlsson, Tove, Lomanto, Valerio January 2023 (has links) Time series data refers to data recorded over time, often periodically, and can rapidly accumulate into vast quantities. To effectively present, analyse, or conduct research on such data it must be stored in an accessible manner. For convenient storage, database management systems (DBMSs) are employed. There are numerous types of such systems, each with their own advantages and disadvantages, making different trade-offs between desired qualities. In this study we conduct a performance comparison between two contrasting DBMSs for time series data. The first system evaluated is PostgreSQL, a popular relational DBMS, equipped with the time series-specific extension TimescaleDB. The second comparand is MongoDB, one of the most well-known and widely used NoSQL systems, with out-of-the-box time series tailoring. We address the question of which out of these DBMSs is better suited for time series data by comparing their query execution times. This involves setting up two databases populated with sample time series data — in our case, publicly available weather data from the Swedish Meteorological and Hydrological Institute. Subsequently, a set of trial queries designed to mimic real-world use cases are executed against each database, while measuring their runtimes. The benchmark results are compared and analysed query-by-query, to identify relative performance differences. Our study finds considerable variation in the relative performance of the two systems, with PostgreSQL outperforming MongoDB in some queries (by up to more than two orders of magnitude) and MongoDB resulting in faster execution in others (by a factor of over 30 in one case). Based on these findings, we conclude that certain queries, and their corresponding real-world use cases, may be better suited for one of the two DBMSs due to the alignment between query structure and the strengths of that system. We further explore other possible explanations for our results, elaborating on factors impacting the efficiency with which each DBMS can execute the provided queries, and consider potential improvements. / I takt med att mängden data världen över växer exponentiellt, ökar också behovet av effektiva lagringsmetoder. En ofta förekommande typ av data är tidsseriedata, där varje värde är associerat med en tidpunkt. Det kan till exempel vara något som mäts en gång om dagen, en gång i timmen, eller med någon annan periodicitet. Ett exempel på sådan data är klimat- och väderdata. Sveriges meteorologiska och hydrologiska institut samlar varje minut in mätvärden från tusentals mätstationer runt om i landet, så som lufttemperatur, vindhastighet och nederbördsmängd. Det leder snabbt till oerhört stora datamängder, som måste lagras för att effektivt kunna analyseras, förmedlas vidare, och bevaras för eftervärlden. Sådan lagring sker i databaser. Det finns många olika typer av databaser, där de vanligaste är relationella databaser och så kallande NoSQL-databaser. I den här uppsatsen undersöker vi två olika databashanteringssystem, och deras lämplighet för lagring av tidsseriedata. Specifikt jämför vi prestandan för det relationella databashanteringssystemet PostgreSQL, utökat med tillägget TimescaleDB som optimerar systemet för användande med tidsseriedata, och NoSQL-systemet MongoDB som har inbyggd tidsserieanpassning. Vi utför jämförelsen genom att implementera två databasinstanser, en per komparand, fyllda med SMHI:s väderdata och därefter mäta exekveringstiderna för ett antal utvalda uppgifter som relaterar till behandling av tidsseriedata. Studien konstaterar att inget av systemen genomgående överträffar det andra, utan det varierar beroende på uppgift. Resultaten indikerar att TimescaleDB är bättre på komplexa uppgifter och uppgifter som involverar att plocka ut all data inom ett visst tidsintervall, emedan MongoDB presterar bättre när endast data från en delmängd av mätstationerna efterfrågas. Database Management Systems PostgreSQL TimescaleDB MongoDB Time Series Database Comparison Performance Analysis Databashanteringssystem PostgreSQL TimescaleDB MongoDB Tidsserier Databasjämförelse Prestandaanalys Computer and Information Sciences Data- och informationsvetenskap
30	Forecasting Efficiency in Cryptocurrency Markets : A machine learning case study / Prognotisering av Marknadseffektiviteten hos Kryptovalutor : En fallstudie genom maskininlärning Persson, Erik January 2022 (has links) Financial time-series are not uncommon to research in an academic context. This is possibly not only due to its challenging nature with high levels of noise and non-stationary data, but because of the endless possibilities of features and problem formulations it creates. Consequently, problem formulations range from classification and categorical tasks determining directional movements in the market to regression problems forecasting their actual values. These tasks are investigated with features consisting of data extracted from Twitter feeds to movements from external markets and technical indicators developed by investors. Cryptocurrencies are known for being evermore so volatile and unpredictable, resulting in institutional investors avoiding the market. In contrast, research in academia often applies state-of-the-art machine learning models without the industry’s knowledge of pre-processing. This thesis aims to lessen the gap between industry and academia by presenting a process from feature extraction and selection to forecasting through machine learning. The task involves how well the market movements can be forecasted and the individual features’ role in the predictions for a six-hours ahead regression task. To investigate the problem statement, a set of technical indicators and a feature selection algorithm were implemented. The data was collected from the exchange FTX and consisted of hourly data from Solana, Bitcoin, and Ethereum. Then, the features selected from the feature selection were used to train and evaluate an Autoregressive Integrated Moving Average (ARIMA) model, Prophet, a Long Short-Term Memory (LSTM) and a Transformer on the spread between the spot price and three months futures market for Solana. The features’ relevance was evaluated by calculating their permutation importance. It was found that there are indications of short-term predictability of the market through several forecasting models. Furthermore, the LSTM and ARIMA-GARCH performed best in a scenario of low volatility, while the LSTM outperformed the other models in times of higher volatility. Moreover, the investigations show indications of non-stationary. This phenomenon was not only found in the data as sequence but also in the relations between the features. These results show the importance of feature selection for a time frame relevant to the prediction window. Finally, the data displays a strong mean-reverting behaviour and is therefore relatively well-approximated by a naive walk. / Finansiella tidsserier är inte ovanliga att utforska i ett akademiskt sammanhang. Det beror troligen inte bara på dess utmanande karaktär med höga ljudnivåer och icke-stationära data, utan även till följd av de oändliga möjligheter till inmatning och problemformuleringar som det skapar. Följaktligen sträcker sig problemformuleringarna från klassificering och kategoriska uppgifter som bestämmer riktningsrörelser på marknaden till regressionsproblem som förutsäger deras faktiska värden. Dessa uppgifter undersöks med data extraherad från twitterflöden till rörelser från externa marknader och tekniska indikatorer utvecklade av investerare. Kryptovalutor är kända för att vara volatila och oförutsägbara till sin natur, vilket resulterar i att institutionella investerare undviker marknaden. I kontrast tillämpas forskning inom den akademiska världen ofta med avancerade maskininlärningsmodeller utan branschens typiska förbearbetningsarbete. Detta examensarbete syftar till att minska klyftan mellan industri och akademi genom att presentera en process från dataextraktion och urval till prognoser genom maskininlärning. Arbetet undersöker hur väl marknadsrörelserna kan prognostiseras och de enskilda variablernas roll i förutsägelserna för ett regressionsproblem som prognotiserar en sex timmar fram i tiden. Därmed implementerades en uppsättning tekniska indikatorer tillsammans med en algoritm för variabelanvändning. Datan samlades in från börsen FTX och bestod av timdata från Solana, Bitcoin och Ethereum. Sedan användes variablerna som valts för att träna och utvärdera en Autoregressive Integrated Moving Average (ARIMA)-modell, Prophet, en Long Short-Term Memory (LSTM) och en Transformer på skillnaden mellan spotpriset och tre månaders framtidsmarknad för Solana. Variablernas relevans utvärderades genom att beräkna deras vikt vid permutation. Slutsatsen är att det finns indikationer på kortsiktig förutsägbarhet av marknaden genom flera prognosmodeller. Vidare noterades det att LSTM och ARIMA-GARCH presterade bäst i ett scenario med låg volatilitet, medan LSTM överträffade de andra modellerna i vid högre volatilitet. Utöver detta visar undersökningarna indikationer på icke-stationäritet inte bara för datan i sig, utan också för relationerna mellan variablerna. Detta visar vikten av att välja variabler för en tidsram som är relevant för prediktionsfönstret. Slutligen visar tidsserien ett starkt medelåtergående beteende och är därför relativt väl approximerad av en naiv prediktionsmodell. Cryptocurrencies Financial time-series Multi step-ahead forecasting Machine Learning Feature selection Kryptovalutor Finansiella tidsserier Flerstegsprognoser Maskininlärning variabelselektion Computer and Information Sciences Data- och informationsvetenskap

Search results