Global ETD Search

41	Anomaly Detection in Telecom Service Provider Network Infrastructure Security Logs using an LSTM Autoencoder : Leveraging Time Series Patterns for Improved Anomaly Detection / Avvikelsedetektering i säkerhetsloggar för nätverksinfrastruktur hos en telekomtjänstleverantör med en LSTM Autoencoder : Uttnyttjande av tidsseriemönster för förbättrad avvikelsedetektering Vlk, Vendela January 2024 (has links) New regulations are placed on Swedish Telecom Service Providers (TSPs) due to a rising concern for safeguarding network security and privacy in the face of ever-evolving cyber threats. These regulations demand that Swedish telecom companies expand their data security strategies with proactive security measures. Logs, serving as digital footprints in IT infrastructure, play a crucial role in identifying anomalies that could indicate security breaches. Deep Learning (DL) has been used to detect anomalies in logs due to its ability to discern intricate patterns within the data. By leveraging deep learning-based models, it is not only possible to identify anomalies but also to predict and mitigate potential threats within the telecom network. An LSTM autoencoder was implemented to detect anomalies in two separate multivariate temporal log datasets; the BETH cybersecurity dataset, and a Cisco log dataset that was created specifically for this thesis. The empirical results in this thesis show that the LSTM autoencoder reached an ROC AUC of 99.5% for the BETH dataset and 76.6% for the Cisco audit dataset. The use of an additional anomaly detection aid in the Cisco audit dataset let the model reach an ROC AUC of 99.6%. The conclusion that could be drawn from this work was that the systematic approach to developing a deep learning model for anomaly detection in log data was efficient. However, the study’s findings raise crucial considerations regarding the appropriateness of various log data for deep learning models used in anomaly detection. / Nya föreskrifter har införts för svenska telekomtjänsteleverantörer på grund av en ökad angelägenhet av att säkerställa nätverkssäkerhet och integritet inför ständigt föränderliga cyberhot. Dessa föreskrifter kräver att svenska telekomföretag utvidgar sina dataskyddsstrategier med proaktiva säkerhetsåtgärder. Loggar, som fungerar som digitala fotspår inom IT-infrastruktur, spelar en avgörande roll för att identifiera avvikelser som kan tyda på säkerhetsintrång. Djupinlärning har använts för att upptäcka avvikelser i loggar på grund av dess förmåga att urskilja intrikata mönster inom data. Genom att utnyttja modeller baserade på djupinlärning är det inte bara möjligt att identifiera avvikelser utan även att förutsäga samt mildra konsekvenserna av potentiella hot inom telekomnätet. En LSTM-autoencoder implementerades för att upptäcka avvikelser i två separata multivariata tidsserielogguppsättningar; BETH-cybersäkerhetsdatauppsättningen och en Cisco-loggdatauppsättning som skapades specifikt för detta arbete. De empiriska resultaten i denna avhandling visar att LSTM-autoencodern uppnådde en ROC AUC på 99.5% för BETH-datauppsättningen och 76.6% för Cisco-datauppsättningen. Användningen av ett ytterligare avvikelsedetekteringsstöd i Cisco-datauppsättningen möjliggjorde att modellen uppnådde en ROC AUC på 99.6%. Slutsatsen som kunde dras från detta arbete var att den systematiska metoden för att utveckla en djupinlärningsmodell för avvikelsedetektering i loggdata var effektiv. Dock väcker studiens resultat kritiska överväganden angående lämpligheten av olika loggdata för djupinlärningsmodeller som används för avvikelsedetektering. Anomaly detection Deep Learning LSTM Autoencoder Time series Log analysis Avvikelsedetektion Djupinlärning LSTM Autoencoder Tidsserier Logganalys Computer Sciences Datavetenskap (datalogi) Computer Engineering Datorteknik
42	Correction of Inhomogeneous Data in the Precipitation Time Series of Sweden Due to the Wind Shield Introduction / Korrigering av inhomogenitet i tidsserier av nederbördsdata i Sverige orsakade av införandet av vindskydd Sofokleous, Ioannis January 2016 (has links) The work of this master thesis is based on analyses of monthly precipitation data from 70 stations of the SMHI (Swedish Meteorological and Hydrological Institute) in Sweden, in the period 1860-2014, using the information for the year of introduction of the wind shield at each station. The primary goal is the calculation of correction factors which will be applied on the precipitation data in the period of measurements before the introduction of the wind shield. This correction will counterbalance the underestimation of the collected precipitation by the unshielded precipitation gauges due to the effect of the wind. The wind induced error, related to aerodynamical effects, increases with increasing wind speed. The stronger the wind, the more capable it is of deflecting the precipitation water droplets or snowflakes, falling towards the gauge orifice, away from it. In spite of the important efficiency of the wind shield which acts to diminish the wind error, the long-term effect of changing the measuring instrumentation at some time in the observations history is the production of inhomogeneous data in the measurements records. Inhomogeneous precipitation data are sources of errors in climatology and hydrology and result in misleading conclusions regarding the climate change and climate variations, hence they should be identified and corrected through a homogenization method. The analysis includes the comparison of the precipitation data of each station during two periods, one before and one after the introduction of the wind shield. This comparison leads to the calculation of ratios representing the increase in the catch between the two periods due to the introduction of the wind shield. Temperature data are also processed in order to estimate the type of precipitation (snow/rain) in each case. The monthly corrections ranged between 5 %, for rain, and 27 % for snow precipitation. The absolute value of the increase of the average annual precipitation due the implementation of the correction was 50 mm. The comparison of the corrected against the uncorrected precipitation time series indicated a less pronounced increase (0.74 mm/y) of the precipitation during the last 150 years, after the application of the correction, compared to the increase indicated from the uncorrected data (1.19 mm/y). / Kontinuerliga samt felfria nederbördsmätningar är av stor betydelse för geovetenskaper som klimatologi och hydrologi därför att nederbördsdata är en av de primära meteorologiska parametrarna för forskning om klimatförändringen. Att säkerställa felfria (homogena) nederbörds tidsserier betyder i stort sett att säkerställa homogenitet genom att identifiera och korrigera inhomogena data. Icke homogena data uppkommer på grund av förändringar i mätmetoder och mätförhållanden under observationstiden, sedan 1860-talet tills idag alltså. Denna studies syfte är att beräkna en korrektion som ska användas för att korrigera nederbördsmätningar som utfördes sedan 1860 utan vinskydd. Vindskyddet eller vindskärmen, en speciell utrustning som användas på nederbördsinsamlare, infördes gradvis under perioden 1900-1960 vid de svenska nederbördstationerna. Vindskyddet introducerades med avsikt att minska vindens påverka vid nederbördsinsamling. Men trotts den positiva effekten som vindskyddet ledde till, genom den ökade nederbördsmängden som samlades in, skapade denna förändring av mätarutrustningen inhomogena data. Bearbetningen skedde för månadsnederbördsdata från 70 stationer från SMHIs meteorologiska nätverk genom att jämföra nederbördsobservationer som genomfördes under perioderna tio år före och tio år efter införandet av vindskydd. Dessutom användes temperaturdata från samma stationer för att uppskatta nederbördslag (snö/regn). Skälet till detta är att vinskyddseffekten är olika mellan snö och regn. Beräkningarna och bestämningen av nederbördslag ledde till en 5 % respektive 27 % nederbörds ökning för regn och snö för de mätningarna som utfördes utan vindskydd. I genomsnitt har de korrigerade värdena, under perioden som vinskyddet saknades, ökat med omkring 50 mm. Precipitation data correction precipitation time series homogenization of precipitation data wind shield wind screen aerodynamic wind error Nederbördsdatakorrektion nederbörds tidsserier inhomogena nederbördsdata vindskydd vindskärm aerodynamiska vindfel Meteorology and Atmospheric Sciences Meteorologi och atmosfärforskning
43	Multivariate Financial Time Series and Volatility Models with Applications to Tactical Asset Allocation / Multivariata finansiella tidsserier och volatilitetsmodeller med tillämpningar för taktisk tillgångsallokering Andersson, Markus January 2015 (has links) The financial markets have a complex structure and the modelling techniques have recently been more and more complicated. So for a portfolio manager it is very important to find better and more sophisticated modelling techniques especially after the 2007-2008 banking crisis. The idea in this thesis is to find the connection between the components in macroeconomic environment and portfolios consisting of assets from OMX Stockholm 30 and use these relationships to perform Tactical Asset Allocation (TAA). The more specific aim of the project is to prove that dynamic modelling techniques outperform static models in portfolio theory. / Den finansiella marknaden är av en väldigt komplex struktur och modelleringsteknikerna har under senare tid blivit allt mer komplicerade. För en portföljförvaltare är det av yttersta vikt att finna mer sofistikerade modelleringstekniker, speciellt efter finanskrisen 2007-2008. Idéen i den här uppsatsen är att finna ett samband mellan makroekonomiska faktorer och aktieportföljer innehållande tillgångar från OMX Stockholm 30 och använda dessa för att utföra Tactial Asset Allocation (TAA). Mer specifikt är målsättningen att visa att dynamiska modelleringstekniker har ett bättre utfall än mer statiska modeller i portföljteori. Multivariate Financial Time Series Multivariate Volatility Models Modern Portfolio Theory (MPT) Tactical Asset Allocation (TAA) Multivariata finansiella tidsserier Multivariata volatilitets modeller Modern portföljteori (MPT) Taktisk tillgångsallokering (TAA) Probability Theory and Statistics Sannolikhetsteori och statistik
44	Interpreting Multivariate Time Series for an Organization Health Platform Saluja, Rohit January 2020 (has links) Machine learning-based systems are rapidly becoming popular because it has been realized that machines are more efficient and effective than humans at performing certain tasks. Although machine learning algorithms are extremely popular, they are also very literal and undeviating. This has led to a huge research surge in the field of interpretability in machine learning to ensure that machine learning models are reliable, fair, and can be held liable for their decision-making process. Moreover, in most real-world problems just making predictions using machine learning algorithms only solves the problem partially. Time series is one of the most popular and important data types because of its dominant presence in the fields of business, economics, and engineering. Despite this, interpretability in time series is still relatively unexplored as compared to tabular, text, and image data. With the growing research in the field of interpretability in machine learning, there is also a pressing need to be able to quantify the quality of explanations produced after interpreting machine learning models. Due to this reason, evaluation of interpretability is extremely important. The evaluation of interpretability for models built on time series seems completely unexplored in research circles. This thesis work focused on achieving and evaluating model agnostic interpretability in a time series forecasting problem. The use case discussed in this thesis work focused on finding a solution to a problem faced by a digital consultancy company. The digital consultancy wants to take a data-driven approach to understand the effect of various sales related activities in the company on the sales deals closed by the company. The solution involved framing the problem as a time series forecasting problem to predict the sales deals and interpreting the underlying forecasting model. The interpretability was achieved using two novel model agnostic interpretability techniques, Local interpretable model- agnostic explanations (LIME) and Shapley additive explanations (SHAP). The explanations produced after achieving interpretability were evaluated using human evaluation of interpretability. The results of the human evaluation studies clearly indicate that the explanations produced by LIME and SHAP greatly helped lay humans in understanding the predictions made by the machine learning model. The human evaluation study results also indicated that LIME and SHAP explanations were almost equally understandable with LIME performing better but with a very small margin. The work done during this project can easily be extended to any time series forecasting or classification scenario for achieving and evaluating interpretability. Furthermore, this work can offer a very good framework for achieving and evaluating interpretability in any machine learning-based regression or classification problem. / Maskininlärningsbaserade system blir snabbt populära eftersom man har insett att maskiner är effektivare än människor när det gäller att utföra vissa uppgifter. Även om maskininlärningsalgoritmer är extremt populära, är de också mycket bokstavliga. Detta har lett till en enorm forskningsökning inom området tolkbarhet i maskininlärning för att säkerställa att maskininlärningsmodeller är tillförlitliga, rättvisa och kan hållas ansvariga för deras beslutsprocess. Dessutom löser problemet i de flesta verkliga problem bara att göra förutsägelser med maskininlärningsalgoritmer bara delvis. Tidsserier är en av de mest populära och viktiga datatyperna på grund av dess dominerande närvaro inom affärsverksamhet, ekonomi och teknik. Trots detta är tolkningsförmågan i tidsserier fortfarande relativt outforskad jämfört med tabell-, text- och bilddata. Med den växande forskningen inom området tolkbarhet inom maskininlärning finns det också ett stort behov av att kunna kvantifiera kvaliteten på förklaringar som produceras efter tolkning av maskininlärningsmodeller. Av denna anledning är utvärdering av tolkbarhet extremt viktig. Utvärderingen av tolkbarhet för modeller som bygger på tidsserier verkar helt outforskad i forskarkretsar. Detta uppsatsarbete fokuserar på att uppnå och utvärdera agnostisk modelltolkbarhet i ett tidsserieprognosproblem. Fokus ligger i att hitta lösningen på ett problem som ett digitalt konsultföretag står inför som användningsfall. Det digitala konsultföretaget vill använda en datadriven metod för att förstå effekten av olika försäljningsrelaterade aktiviteter i företaget på de försäljningsavtal som företaget stänger. Lösningen innebar att inrama problemet som ett tidsserieprognosproblem för att förutsäga försäljningsavtalen och tolka den underliggande prognosmodellen. Tolkningsförmågan uppnåddes med hjälp av två nya tekniker för agnostisk tolkbarhet, lokala tolkbara modellagnostiska förklaringar (LIME) och Shapley additiva förklaringar (SHAP). Förklaringarna som producerats efter att ha uppnått tolkbarhet utvärderades med hjälp av mänsklig utvärdering av tolkbarhet. Resultaten av de mänskliga utvärderingsstudierna visar tydligt att de förklaringar som produceras av LIME och SHAP starkt hjälpte människor att förstå förutsägelserna från maskininlärningsmodellen. De mänskliga utvärderingsstudieresultaten visade också att LIME- och SHAP-förklaringar var nästan lika förståeliga med LIME som presterade bättre men med en mycket liten marginal. Arbetet som utförts under detta projekt kan enkelt utvidgas till alla tidsserieprognoser eller klassificeringsscenarier för att uppnå och utvärdera tolkbarhet. Dessutom kan detta arbete erbjuda en mycket bra ram för att uppnå och utvärdera tolkbarhet i alla maskininlärningsbaserade regressions- eller klassificeringsproblem. Interpretability Forecasting Shapley additive explanations Time series Explainable artificial intelligence Tolkbarhet Prognoser Shapley additiva förklaringar Tidsserier Förklarbar artificiell intelligens Computer and Information Sciences Data- och informationsvetenskap
45	LSTM-based Directional Stock Price Forecasting for Intraday Quantitative Trading / LSTM-baserad aktieprisprediktion för intradagshandel Mustén Ross, Isabella January 2023 (has links) Deep learning techniques have exhibited remarkable capabilities in capturing nonlinear patterns and dependencies in time series data. Therefore, this study investigates the application of the Long-Short-Term-Memory (LSTM) algorithm for stock price prediction in intraday quantitative trading using Swedish stocks in the OMXS30 index from February 28, 2013, to March 1, 2023. Contrary to previous research [12, 32] suggesting that past movements or trends in stock prices cannot predict future movements, our analysis finds limited evidence supporting this claim during periods of high volatility. We discover that incorporating stock-specific technical indicators does not significantly enhance the predictive capacity of the model. Instead, we observe a trade-off: by removing the seasonal component and leveraging feature engineering and hyperparameter tuning, the LSTM model becomes proficient at predicting stock price movements. Consequently, the model consistently demonstrates high accuracy in determining price direction due to consistent seasonality. Additionally, training the model on predicted return differences, rather than the magnitude of prices, further improves accuracy. By incorporating a novel long-only and long-short trading strategy using the one-day-ahead predictive price, our model effectively captures stock price movements and exploits market inefficiencies, ultimately maximizing portfolio returns. Consistent with prior research [14, 15, 31, 32], our LSTM model outperforms the ARIMA model in accurately predicting one-day-ahead stock prices. Portfolio returns consistently outperforms the stock market index, generating profits over the entire time period. The optimal portfolio achieves an average daily return of 1.2%, surpassing the 0.1% average daily return of the OMXS30 Index. The algorithmic trading model demonstrates exceptional precision with a 0.996 accuracy rate in executing trades, leveraging predicted directional stock movements. The algorithmic trading model demonstrates an impressive 0.996 accuracy when executing trades based on predicted directional stock movements. This remarkable performance leads to cumulative and annualized excessive returns that surpass the index return for the same period by a staggering factor of 800. / Djupinlärningstekniker har visat en enastående förmåga att fånga icke-linjära mönster och samband i tidsseriedata. Med detta som utgångspunkt undersöker denna studie användningen av Long-Short-Term-Memory (LSTM)-algoritmen för att förutsäga aktiepriser med svenska aktier i OMXS30-indexet från den 28 februari 2013 till den 1 mars 2023. Vår analys finner begränsat stöd till tidigare forskning [12, 32] som hävdar att historisk aktierörelse eller trend inte kan användas för att prognostisera framtida mönster. Genom att inkludera aktiespecifika tekniska indikatorer observerar vi ingen betydande förbättring i modellens prognosförmåga. genom att extrahera den periodiska komponenten och tillämpa metoder för egenskapskonstruktion och optimering av hyperparametrar, lär sig LSTM-modellen användbara egenskaper och blir därmed skicklig på att förutsäga akrieprisrörelser. Modellen visar konsekvent högre noggrannhet när det gäller att bestämma prisriktning på grund av den regelbundna säsongsvariationen. Genom att träna modellen att förutse avkastningsskillnader istället för absoluta prisvärden, förbättras noggrannheten avsevärt. Resultat tillämpas sedan på intradagshandel, där förutsagda stängningspriser för nästkommande dag integreras med både en lång och en lång-kort strategi. Vår modell lyckas effektivt fånga aktieprisrörelser och dra nytta av ineffektiviteter på marknaden, vilket resulterar i maximal portföljavkastning. LSTM-modellen är överlägset bättre än ARIMA-modellen när det gäller att korrekt förutsäga aktiepriser för nästkommande dag, i linje med tidigare forskning [14, 15, 31, 32], är . Resultat från intradagshandeln visar att LSTM-modellen konsekvent genererar en bättre portföljavkastning jämfört med både ARIMA-modellen och dess jämförelseindex. Dessutom uppnår strategin positiv avkastning under hela den analyserade tidsperioden. Den optimala portföljen uppnår en genomsnittlig daglig avkastning på 1.2%, vilket överstiger OMXS30-indexets genomsnittliga dagliga avkastning på 0.1%. Handelsalgoritmen är oerhört exakt med en korrekthetsnivå på 0.996 när den genomför affärer baserat på förutsagda rörelser i aktiepriset. Detta resulterar i en imponerande avkastning som växer exponentiellt och överträffar jämförelseindex med en faktor på 800 under samma period. Deep Learning Long-Short-Term-Memory (LSTM) ARIMA Financial Time Series Forecasting Algorithmic Trading Intraday Trading Stock Prediction Djupinlärning LSTM ARIMA finansiella tidsserier algoritmisk aktiehandel intradagshandel aktieprediktion Computer and Information Sciences Data- och informationsvetenskap
46	Forecasting Daily Supermarkets Sales with Machine Learning / Dagliga Försäljningsprognoser för Livsmedel med Maskininlärning Fredén, Daniel, Larsson, Hampus January 2020 (has links) Improved sales forecasts for individual products in retail stores can have a positive effect both environmentally and economically. Historically these forecasts have been done through a combination of statistical measurements and experience. However, with the increased computational power available in modern computers, there has been an interest in applying machine learning for this problem. The aim of this thesis was to utilize two years of sales data, yearly calendar events, and weather data to investigate which machine learning method could forecast sales the best. The investigated methods were XGBoost, ARIMAX, LSTM, and Facebook Prophet. Overall the XGBoost and LSTM models performed the best and had a lower mean absolute value and symmetric mean percentage absolute error compared to the other models. However, Facebook Prophet performed the best in regards to root mean squared error and mean absolute error during the holiday season, indicating that Facebook Prophet was the best model for the holidays. The LSTM model could however quickly adapt during the holiday season improved the performance. Furthermore, the inclusion of weather did not improve the models significantly, and in some cases, the results were worsened. Thus, the results are inconclusive but indicate that the best model is dependent on the time period and goal of the forecast. / Förbättrade försäljningsprognoser för individuella produkter inom detaljhandeln kan leda till både en miljömässig och ekonomisk förbättring. Historiskt sett har dessa utförts genom en kombination av statistiska metoder och erfarenhet. Med den ökade beräkningskraften hos dagens datorer har intresset för att applicera maskininlärning på dessa problem ökat. Målet med detta examensarbete är därför att undersöka vilken maskininlärningsmetod som kunde prognostisera försäljning bäst. De undersökta metoderna var XGBoost, ARIMAX, LSTM och Facebook Prophet. Generellt presterade XGBoost och LSTM modellerna bäst då dem hade ett lägre mean absolute value och symmetric mean percentage absolute error jämfört med de andra modellerna. Dock, gällande root mean squared error hade Facebook Prophet bättre resultat under högtider, vilket indikerade att Facebook Prophet var den bäst lämpade modellen för att förutspå försäljningen under högtider. Dock, kunde LSTM modellen snabbt anpassa sig och förbättrade estimeringarna. Inkluderingen av väderdata i modellerna resulterade inte i några markanta förbättringar och gav i vissa fall även försämringar. Övergripande, var resultaten tvetydiga men indikerar att den bästa modellen är beroende av prognosens tidsperiod och mål. Statistics applied mathematics machine learning retail industry time-series forecasts neural network XGBoost ARIMA ARIMAX Facebook Prophet Prophet LSTM Statistik tillämpad matematik maskininlärning livsmedelsindustrin prognostisering tidsserier neurala nätverk XGBoost ARIMA ARIMAX Facebook Prophet Prophet LSTM Mathematics Matematik
47	Improving Training of Differentiable Neural Computers on Time Series / Att Förbättra Träningen av Differentierbara Neurala Datorer på Tidserier Persson, Isak January 2022 (has links) Memory Augmented Neural Networks (MANN) is a hot research area within deep learning. One of the most promising MANN is the Differentiable Neural Network (DNC) which is able to learn, in a fully differentiable way, how to represent and store data into an external memory. Due to its memory, it performs exceptionally well on tasks where long-term memory is required. However, not a lot of research has been done on DNCs applied to time series and is also considered to be difficult to train. This work focuses on how to improve the training of a DNC on time series by taking advantage of the external memory and manipulating it in training. Three methods are presented. The first method reuses the memory between epochs which can help when there is a risk of overfitting. The second method is based on the first but has a bi-directional training scheme which drastically improves the stability of the convergence and can potentially produce better performing DNC. The last method presented is a transfer learning method where the memory is being transferred. This method is a versatile transfer learning method that can be applied when the source and target input feature spaces are different. It is also not dependent on the architecture of the DNC other than the size of the memory. These methods were applied and tested to time series in the telecom domain. Specifically, they were tested on four time series, two for predicting read and write latency, and two for predicting round trip time for signals. The results of the methods were fairly consistent on all the time series. / Minnesförstärkta neurala nätverk (MANNs) är en trendig forskningsområde inom djupinlärning. En av de mest lovande MANN är Differentierbara Neurala Datorer (DNCs) som kan lära sig representera och lagra data in till ett externt minne. På grund av sitt externa minne, så är den exceptionellt bra på att lösa problem som kräver långtids minne. Det finns däremot inte mycket forskning på DNCs applicerat på tidserier och att den är svår att träna. Arbetet i denna uppsatts har fokuserat på hur man kan förbättra träning av DNC på tidserier genom att utnyttja det externa minnet och manipulera det under träningen. Arbetet presenterar tre styckna metoder. Första metoden återanvänder minnet mellan epoker och kan hjälpa när det finns risk att överanpassar sig till träningsdatan. Den andra metoden är baserad på den första men har ett dubbelriktat tränings system som kan tydligt förbättra stabiliteten av konvergensen och kan ibland producera bättre presterande DNC. Den sista metoden är en metod som överför lärande genom att överföra minnet av en tränad DNC. Denna metod är mångsidig då den inte är beror på källans och målets ingångs datautrymme. Den beror inte heller på arkitekturen av DNC annat än storleken på minnet. Dessa metoder var applicerade och testade på tidsseries inom telekom domänen. Dom var testade på fyra tidsserier, två styckena för att förutspå läs- och skriv latens, och två för att förutspå tid för tur och retur för signaler. Resultaten för metoderna vara relativt konsekventa med alla tidsseries. Memory augmented neural networks Differentiable neural computers Recurrent neural networks Time series Transfer learning Minnesförstärkta neurala nätverk Differentierbara neurala datorer Återkommande neurala nätverk Tidsserier Överföra lärande Computer and Information Sciences Data- och informationsvetenskap
48	Optimizing Resource Allocation in Kubernetes : A Hybrid Auto-Scaling Approach / Optimering av resurstilldelning i Kubernetes : En hybrid auto-skalningsansats Chiminelli, Brando January 2023 (has links) This thesis focuses on addressing the challenges of resource management in cloud environments, specifically in the context of running resource-optimized applications on Kubernetes. The scale and growth of cloud services, coupled with the dynamic nature of workloads, make it difficult to efficiently manage resources and control costs. The objective of this thesis is to explore the proactive autoscaling of virtual resources based on traffic demand, aiming to improve the current reactive approach, the Horizontal Pod Autoscaler (HPA), that relies on predefined rules and threshold values. By enabling proactive autoscaling, resource allocation can be optimized proactively, leading to improved resource utilization and cost savings. The aim is to strike a balance between resource utilization and the risk of Service Level Agreement (SLA) violations while optimizing resource usage for microservices. The study involves generating predictions and assessing resource utilization for both the current HPA implementation and the proposed solution. By comparing resource utilization and cost implications, the economic feasibility and benefits of adopting the new approach can be determined. The analysis aims to provide valuable insights into resource utilization patterns and optimization opportunities. The analysis shows significant improvements in CPU utilization and resource consumption using the proposed approach compared to the current HPA implementation. The proactive strategy allows for handling the same number of requests with fewer replicas, resulting in improved efficiency. The proposed solution has the potential to be applied to any type of service running on Kubernetes, with low computational costs. In conclusion, the analysis demonstrates the potential for resource optimization and cost savings through the proposed approach. By adopting proactive strategies and accurately predicting resource needs, organizations can achieve efficient resource utilization, system robustness, and compliance with SLA. Further research and enhancements can be explored based on the findings of this analysis. / Denna avhandling fokuserar på att adressera utmaningarna med resurshantering i molnmiljöer, specifikt i kontexten att köra resursoptimerade applikationer på Kubernetes. Skalan och tillväxten av molntjänster, tillsammans med arbetsbelastningarnas dynamiska natur, gör det svårt att effektivt hantera resurser och kontrollera kostnader. Syftet med denna avhandling är att utforska proaktiv autoskalning av virtuella resurser baserat på trafikbehov, med målet att förbättra den nuvarande reaktiva metoden, Horizontal Pod Autoscaler (HPA), som förlitar sig på fördefinierade regler och tröskelvärden. Genom att möjliggöra proaktiv autoskalning kan resurstilldelningen optimeras i förväg, vilket leder till förbättrad resursanvändning och kostnadsbesparingar. Målet är att hitta en balans mellan resursanvändning och risken för överträdelser av Service Level Agreements (SLA) samtidigt som resursanvändningen för mikrotjänster optimeras. Studien innefattar att generera förutsägelser och bedöma resursanvändning för både den nuvarande HPA-implementeringen och den föreslagna lösningen. Genom att jämföra resursanvändning och kostnadsimplikationer kan den ekonomiska genomförbarheten och fördelarna med att anta det nya tillvägagångssättet bestämmas. Analysen syftar till att ge värdefulla insikter i mönster för resursanvändning och möjligheter till optimering. Analysen visar betydande förbättringar i CPU-användning och resursförbrukning med den föreslagna metoden jämfört med den nuvarande HPA-implementeringen. Den proaktiva strategin möjliggör hantering av samma antal förfrågningar med färre replikor, vilket resulterar i förbättrad effektivitet. Den föreslagna lösningen har potential att tillämpas på alla typer av tjänster som körs på Kubernetes, med låga beräkningskostnader. Sammanfattningsvis visar analysen potentialen för resursoptimering och kostnadsbesparingar genom det föreslagna tillvägagångssättet. Genom att anta proaktiva strategier och noggrant förutsäga resursbehov kan organisationer uppnå effektiv resursanvändning, systemets robusthet och uppfyllnad av SLA:er. Vidare forskning och förbättringar kan utforskas baserat på resultaten av denna analys. Cloud computing Microservices Kubernetes Container Orchestration Auto-Scaling Horizontal Pod Autoscaler (HPA) WorkloadPrediction Time-Series Forecasting Molntjänster Mikrotjänster Kubernetes Containerorkestrering Automatisk Skalning Horizontal Pod Autoscaler (HPA) Förutsägelse avArbetsbelastning Prognoser för Tidsserier Computer Sciences Datavetenskap (datalogi) Computer Engineering Datorteknik
49	Evaluation of Machine Learning Methods for Time Series Forecasting on E-commerce Data / Utvärdering av Maskininlärningsmodeller för tidsserie-prognotisering på e-handels data Abrahamsson, Peter, Ahlqvist, Niklas January 2022 (has links) Within demand forecasting, and specifically within the field of e-commerce, the provided data often contains erratic behaviours which are difficult to explain. This induces contradictions to the common assumptions within classical approaches for time series analysis. Yet, classical and naive approaches are still commonly used. Machine learning could be used to alleviate such problems. This thesis evaluates four models together with Swedish fin-tech company QLIRO AB. More specifically, a MLR (Multiple Linear Regression) model, a classic Box-Jenkins model (SARIMAX), an XGBoost model, and a LSTM-network (Long Short-Term Memory). The provided data consists of aggregated total daily reservations by e-merchants within the Nordic market from 2014. Some data pre processing was required and a smoothed version of the data set was created for comparison. Each model was constructed according to their specific requirements but with similar feature engineering. Evaluation was then made on a monthly level with a forecast horizon of 30 days during 2021. The results shows that both the MLR and the XGBoost provides the most consistent results together with perks for being easy to use. After these two, the LSTM-network showed the best results for November and December on the original data set but worst overall. Yet it had good performance on the smoothed data set and was then comparable to the first two. The SARIMAX was the worst performing of all the models considered in this thesis and was not as easy to implement. / Inom efterfrågeprognoser, och specifikt inom området e-handel, innehåller den tillhandahållna informationen ofta oberäkneliga beteenden som är svåra att förklara. Detta motsäger vanliga antaganden inom tidsserier som används för de mer klassiska tillvägagångssätten. Ändå är klassiska och naiva metoder fortfarande vanliga. Maskininlärning skulle kunna användas för att lindra sådana problem. Detta examensarbete utvärderar fyra modeller tillsammans med det svenska fintechföretaget QLIRO AB. Mer specifikt en MLR-modell (Multiple Linear Regression), en klassisk Box-Jenkins-modell (SARIMAX), en XGBoost-modell och ett LSTM-nätverk (Long Short-Term Memory). Den tillhandahållna informationen består av aggregerade dagliga reservationer från e-handlare inom den nordiska marknaden från 2014. Viss dataförbehandling krävdes och en utjämnad version av datamängden skapades för jämförelse. Varje modell konstruerades enligt deras specifika krav men med liknande \textit{feature engineering}. Utvärderingen gjordes sedan på månadsnivå med en prognoshorisont på 30 dagar under 2021. Resultaten visar att både MLR och XGBoost ger de mest pålitliga resultaten tillsammans med fördelar som att vara lätta att använda. Efter dessa visar LSTM-nätverket de bästa resultaten för november och december på den ursprungliga datamängden men sämst totalt sett. Ändå visar den god prestanda på den utjämnade datamängden och var sedan jämförbar med de två första modellerna. SARIMAX var den sämst presterande av alla jämförda modeller och inte lika lätt att implementera. Thesis Time Series Machine Learning E-commerce Demand Forecasting Multiple Linear Regression SARIMAX XGBoost LSTM Model Evaluation Examensarbete tidsserier maskininlärning e-handel efterfrågeprognoser multipel linjär regression SARIMAX XGBoost LSTM modellutvärdering Other Mathematics Annan matematik
50	Prestandajämförelse mellan krypterade och okrypterade tidsseriedatabaser med IoT-baserad temperatur- och geopositionsdata / Performance Comparison between Encrypted and Unencrypted Time Series Databases with IoT-Based Temperature and Geolocation Data Uzunel, Sinem, Xu, Joanna January 2024 (has links) Internet of Things (IoT) är en växande teknologi som spelar en allt större roll i samhället. Den innefattar ett nätverk av internetanslutna enheter som samlar in och utbyter data. Samtidigt som IoT växer uppstår utmaningar kring hantering av stora datamängder och säkerhetsaspekter. Företaget Softhouse står inför utmaningen att välja en effektiv tidsseriedatabas för hantering av temperatur- och geopositionsdata från värmesystem i privata bostäder, där både prestanda och dataintegritet via kryptering är av stor vikt. Detta examensarbete har därför utfört en prestandajämförelse mellan AWSTimestream och InfluxDB, där olika tester har använts för att mäta exekveringstiden för inskrivning av sensordata och databasfrågor. Jämförelsen inkluderar AWS Timestream i krypterad form mot InfluxDB i dess AWS-molnversion i krypterad form, samt InfluxDB AWS i krypterad form mot InfluxDB i okrypterad form. Syftet med studien var att ge riktlinjer för valet av tidsseriedatabaser med fokus på prestanda och säkerhetsaspekter, inklusivekryptering. Studien undersökte även hur valet av rätt databas påverkar företag som Softhouse, både i termer av kvantitativa och kvalitativa fördelar, samt att ge en bedömning av kostnaderna. Resultatet visade att InfluxDB i dess AWS-molnversion generellt presterade bättre än AWS Timestream och InfluxDB i dess standardversion. Det fanns tydliga skillnader i prestanda mellan AWS Timestream och InfluxDB i dess AWS-molnversion, men inte lika tydliga skillnader i prestanda mellan InfluxDB i dess AWS-molnversion och standardversionen. Med hänsyn till både prestanda och säkerhet framstår InfluxDB i dess AWS-molnversion som det mest lämpliga alternativet. Det är emellertid av stor vikt att ta kostnadaspekten i beaktande, då AWS Timestream visar sig vara avsevärt mer kostnadseffektivt än InfluxDB. / The Internet of Things (IoT) is a growing technology that plays an increasingly significant role in society. It encompasses a network of internet-connected devices that collect and exchange data. As IoT continues to expand, challenges arise regarding the management of large volumes of data and security aspects. The company Softhouse faces the challenge of choosing an efficient time-series database for handling temperature and geoposition data from heating systems in homes, where both performance and data integrity through encryption are of great importance. Therefore, this thesis has conducted a performance comparison between AWS Timestream and InfluxDB, using various tests to measure the execution times for data ingestion of sensor data and database queries. The comparison includes AWS Timestream in encrypted form versus InfluxDB in its AWS cloud version in encrypted form, as well as InfluxDB AWS in encrypted form versus InfluxDB in unencrypted form. The aim of the study was to provide guidelines for the selection of time-series databases with a focus on performance and security aspects, including encryption. The study also explored how the choice of the right database affects companies like Softhouse, both in terms of quantitative and qualitative benefits, and provided an assessment of costs. The results showed that InfluxDB in its AWS cloud version generally outperformed AWS Timestream and InfluxDB in its standard version. There were clear performance differences between AWS Timestream and InfluxDB in its AWS cloud version, but not as pronounced differences in performance between InfluxDB in itsAWS cloud version and the standard version. Considering both performance and security, InfluxDB in its AWS cloud version appears to be the most suitable option. However, it is crucial to consider the cost aspect, as AWS Timestream proves to be significantly more cost-effective than InfluxDB. AWS Timestream InfluxDB Cloud Performance Testing Time Series Time Series databases Encryption Database Query Internet of Things (IoT) Performance Analysis AWS Timestream InfluxDB Cloud Prestandatest Tidsserier Tidsseriedatabas Kryptering Databasfråga Internet of Things (IoT) Prestandaanalys Computer Systems Datorsystem

Search results