Global ETD Search

41	Evaluating clustering techniques in financial time series Millberg, Johan January 2023 (has links) This degree project aims to investigate different evaluation strategies for clustering methodsused to cluster multivariate financial time series. Clustering is a type of data mining techniquewith the purpose of partitioning a data set based on similarity to data points in the same cluster,and dissimilarity to data points in other clusters. By clustering the time series of mutual fundreturns, it is possible to help individuals select funds matching their current goals and portfolio. Itis also possible to identify outliers. These outliers could be mutual funds that have not beenclassified accurately by the fund manager, or potentially fraudulent practices. To determine which clustering method is the most appropriate for the current data set it isimportant to be able to evaluate different techniques. Using robust evaluation methods canassist in choosing the parameters to ensure optimal performance. The evaluation techniquesinvestigated are conventional internal validation measures, stability measures, visualizationmethods, and evaluation using domain knowledge about the data. The conventional internalvalidation methods and stability measures were used to perform model selection to find viableclustering method candidates. These results were then evaluated using visualization techniquesas well as qualitative analysis of the result. Conventional internal validation measures testedmight not be appropriate for model selection of the clustering methods, distance metrics, or datasets tested. The results often contradicted one another or suggested trivial clustering solutions,where the number of clusters is either 1 or equal to the number of data points in the data sets.Similarly, a stability validation metric called the stability index typically favored clustering resultscontaining as few clusters as possible. The only method used for model selection thatconsistently suggested clustering algorithms producing nontrivial solutions was the CLOSEscore. The CLOSE score was specifically developed to evaluate clusters of time series bytaking both stability in time and the quality of the clusters into account. We use cluster visualizations to show the clusters. Scatter plots were produced by applyingdifferent methods of dimension reduction to the data, Principal Component Analysis (PCA) andt-Distributed Stochastic Neighbor Embedding (t-SNE). Additionally, we use cluster evolutionplots to display how the clusters evolve as different parts of the time series are used to performthe clustering thus emphasizing the temporal aspect of time series clustering. Finally, the resultsindicate that a manual qualitative analysis of the clustering results is necessary to finely tune thecandidate clustering methods. Performing this analysis highlights flaws of the other validationmethods, as well as allows the user to select the best method out of a few candidates based onthe use case and the reason for performing the clustering. clustering machine learning financial time series time series unsupervised learning cluster validation cluster evaluation klustring klusteranalys finansiella tidsserier maskininlärning klustervalidering evalueringsteknik Computer and Information Sciences Data- och informationsvetenskap
42	A comparative study on a practical use case for image clustering based on common shareability and metadata / En jämförande studie i ett praktiskt användningsfall för bildklustring baserat på gemensamt delade bilder och dess metadata Dackander, Erik January 2018 (has links) As the amount of data increases every year, the need for effective structuring of data is a growing problem. This thesis aims to investigate and compare how four different clustering algorithms perform on a practical use case for images. The four algorithms used are Affinity Propagation, BIRCH, Rectifying Self-Organizing Maps, Deep Embedded Clustering. The algorithms get the image metadata and also its content, extracted using a pre-trained deep convolutional neural network. The results demonstrate that while there are variations in the data, Affinity Propagation and BIRCH shows the most potential among the four algorithms. Furthermore, when metadata is available it improves the results of the algorithms that can process the extreme values cause. For Affinity Propagation the mean share score is improved by 5.6 percentage points and the silhouette score is improved by 0.044. BIRCH mean share score improves by 1.9 percentage points and silhouette score by 0.051. RSOM and DEC could not process the metadata. / Allt eftersom datamängderna ökar för varje år som går så ökar även behovet av att strukturera datan på en bra sätt. Detta arbete syftar till att undersöka och jämföra hur väl fyra olika klustringsalgoritmer fungerar för ett praktiskt användningsfall med bilder. De fyra algorithmerna som används är Affinity Propagation, BIRCH, Rectifying Self-Organizing Maps och Deep Embedded Clustering. Algoritmerna hade bildernas metadata samt deras innehåll, framtaget med hjälp av ett deep convolutional neural network, att använda för klustringen. Resultaten visar att även om det finns stora variationer i utfallen, visar Affinity Propagation och BIRCH den största potentialen av de fyra algoritmerna. Vidare verkar metadatan, när den finns tillgänglig, förbättra resultaten för de klustringsalgoritmer som kunde hantera de extremvärden som metadatan kunde ge upphov till. För Affinity propagation föbättrades den genomsnittliga delnings poängen med 5,6 procentenheter och dess silhouette index ökade med 0.044. BIRCHs genomsnittliga delnings poäng ökade med 1,9 procentenheter samt dess silhouette index förbättades med 0.051. RSOM och DEC kunde inte processa metadatan. clustering cluster analysis machine learning degoo image clustering comparative study klustring klusteranalys maskininlärning degoo bildklustring jämförande studie Computer Sciences Datavetenskap (datalogi)
43	Deinterleaving of radar pulses with batch processing to utilize parallelism / Gruppering av radar pulser med batch-bearbetning för att utnyttja parallelism Lind, Emma, Stahre, Mattias January 2020 (has links) The threat level (specifically in this thesis, for aircraft) in an environment can be determined by analyzing radar signals. This task is critical and has to be solved fast and with high accuracy. The received electromagnetic pulses have to be identiﬁed in order to classify a radar emitter. Usually, there are several emitters transmitting radar pulses at the same time in an environment. These pulses need to be sorted into groups, where each group contains pulses from the same emitter. This thesis aims to find a fast and accurate solution to sort the pulses in parallel. The selected approach analyzes batches of pulses in parallel to exploit the advantages of a multi-threaded Central Processing Unit (CPU) or a Graphics Processing Unit (GPU). Firstly, a suitable clustering algorithm had to be selected. Secondly, an optimal batch size had to be determined to achieve high clustering performance and to rapidly process the batches of pulses in parallel. A quantitative method based on experiments was used to measure clustering performance, execution time, system response, and parallelism as a function of batch sizes when using the selected clustering algorithm. The algorithm selected for clustering the data was Density-based Spatial Clustering of Applications with Noise (DBSCAN) because of its advantages, such as not having to specify the number of clusters in advance, its ability to find arbitrary shapes of a cluster in a data set, and its low time complexity. The evaluation showed that implementing parallel batch processing is possible while still achieving high clustering performance, compared to a sequential implementation that used the maximum likelihood method.An optimal batch size in terms of data points and cutoff time is hard to determine since the batch size is very dependent on the input data. Therefore, one batch size might not be optimal in terms of clustering performance and system response for all streams of data. A solution could be to determine optimal batch sizes in advance for different streams of data, then adapt a batch size depending on the stream of data. However, with a high level of parallelism, an additional delay is introduced that depends on the difference between the time it takes to collect data points into a batch and the time it takes to process the batch, thus the system will be slower to output its result for a given batch compared to a sequential system. For a time-critical system, a high level of parallelism might be unsuitable since it leads to slower response times. / Genom analysering av radarsignaler i en miljö kan hotnivån bestämmas. Detta är en kritisk uppgift som måste lösas snabbt och med bra noggrannhet. För att kunna klassificera en specifik radar måste de elektromagnetiska pulserna identifieras. Vanligtvis sänder flera emittrar ut radarpulser samtidigt i en miljö. Dessa pulser måste sorteras i grupper, där varje grupp innehåller pulser från en och samma emitter. Målet med denna avhandling är att ta fram ett sätt att snabbt och korrekt sortera dessa pulser parallellt. Den valda metoden använder grupper av data som analyserades parallellt för att nyttja fördelar med en multitrådad Central Processing Unit (CPU) eller en Central Processing Unit (CPU) or a Graphics Processing Unit (GPU). Först behövde en klustringsalgoritm väljas och därefter en optimal gruppstorlek för den valda algoritmen. Gruppstorleken baserades på att grupperna kunde behandlas parallellt och snabbt, samt uppnå tillförlitlig klustring. En kvantitativ metod användes som baserades på experiment genom att mäta klustringens tillförlitlighet, exekveringstid, systemets svarstid och parallellitet som en funktion av gruppstorlek med avseende på den valda klustringsalgoritmen. Density-based Spatial Clustering of Applications with Noise (DBSCAN) valdes som algoritm på grund av dess förmåga att hitta kluster av olika former och storlekar utan att på förhand ange antalet kluster för en mängd datapunkter, samt dess låga tidskomplexitet. Resultaten från utvärderingen visade att det är möjligt att implementera ett system med grupper av pulser och uppnå bra och tillförlitlig klustring i jämförelse med en sekventiell implementation av maximum likelihood-metoden. En optimal gruppstorlek i antal datapunkter och cutoff tid är svårt att definiera då storleken är väldigt beroende på indata. Det vill säga, en gruppstorlek måste inte nödvändigtvis vara optimal för alla typer av indataströmmar i form av tillförlitlig klustring och svarstid för systemet. En lösning skulle vara att definiera optimala gruppstorlekar i förväg för olika indataströmmar, för att sedan kunna anpassa gruppstorleken efter indataströmmen. Det uppstår en fördröjning i systemet som är beroende av differensen mellan tiden det tar att skapa en grupp och exekveringstiden för att bearbeta en grupp. Denna fördröjning innebär att en parallell grupp-implementation aldrig kommer kunna vara lika snabb på att producera sin utdata som en sekventiell implementation. Detta betyder att det i ett tidskritiskt system förmodligen inte är optimalt att parallellisera mycket eftersom det leder till långsammare svarstid för systemet. Cluster analysis DBSCAN Parallelization Signal Separation Unsupervised learning Klusteranalys DBSCAN Parallellisering Signal Separation Oövervakat lärande Computer Sciences Datavetenskap (datalogi) Signal Processing Signalbehandling
44	Att mäta eller inte mäta : en studie om förhållandet mellan prestationsmätning och kulturell styrning i mer eller mindre osäkra omgivningar Gunnesby, Marica, Wallin, Karin January 2011 (has links) Det finns i management control-litteraturen en efterfrågan på studier som tar ett helhetsperspektiv på styrsystem (Management Control Systems, MCS) och som förklarar hur dessa system bidrar till effektivitet hos organisationer. Utifrån ett contingency-synsätt undersöker vi i denna studie hur kulturell styrning och prestationsmätning som delar av MCS, tillsammans med den kontextuella variabeln osäkerhet i omgivningen, påverkar hur effektiva organisationer är. Vi antar en systemansats och önskar studera relationen mellan fler variabler, och därför tillämpas en klusteranalys där datamaterialet delas in i grupper med liknande karaktäristika. Då det är tveksamt om det finns en skillnad i effektivitet mellan de kluster vi identifierar, och för att få en bättre förståelse för vårt resultat, väljer vi att analysera detta utifrån två olika perspektiv. Utifrån det ena perspektivet antas organisationernas effektivitet skilja sig från varandra. Sett från detta perspektiv verkar en hög grad av prestationsmätning tillsammans med en hög grad av kulturell styrning vara effektivt under hög grad av osäkerhet i omgivningen. Utgångspunkten i det andra perspektivet är däremot att alla de företag som existerar och kan studeras är effektiva, och utifrån denna analys verkar det tvärtemot den tidigare analysens resultat som att en lägre grad av prestationsmätning tillsammans med en lika stor grad av kulturell styrning är mer effektivt i osäkra omgivningar, även om detta samband är något oklart. Under låg grad av osäkerhet i omgivningen visar analyser ur båda perspektiven att en hög grad av kulturell styrning tillsammans med en låg grad av prestationsmätning är en effektiv kombination. Dessutom visar det sig utifrån det sistnämnda perspektivet att även hög grad av båda styrmekanismerna är effektivt i mindre osäkra omgivningar. / Within the management control literature, studies have been requested that take a holistic view of Management Control Systems (MCS) and that explain how these systems contribute to organizational effectiveness. In this study, from a contingency perspective, we examine how cultural control and performance measurement as parts of the MCS, together with the contextual variable environmental uncertainty, affect the effectiveness of organizations. Adopting a systems approach we wish to study the relationship between several variables and therefore use a cluster analysis to divide the data into groups with similar characteristics. Since it is not clear whether there are any differences in effectiveness between the identified clusters and to get a better understanding of our findings, we choose to analyze the results from two different perspectives. Adopting one of the perspectives, the organizations are assumed to be unequally effective. From this perspective a high degree of performance measurement combined with a high degree of cultural control seem to be effective under high degrees of environmental uncertainty. From the other perspective it is implicitly understood that all of the observed organizations are effective since they exist. Seen from this, second, perspective it seems that a lower degree of performance measurement together with an equal degree of cultural control is more effective in uncertain environments, even though this relationship is somewhat vague. Under a low degree of environmental uncertainty, analyses from both perspectives show that a high degree of performance measurement together with a low degree of cultural control in an effective combination. Furthermore, the analysis from the second perspective indicates that also a high degree of both of the control variables is effective in high degrees of environmental uncertainty. management control MCS control systems cultural control performance measurement environmental uncertainty cluster analysis systems approach contingency management control MCS styrsystem kulturell styrning prestationsmätning osäkerhet i omgivningen effektivitet klusteranalys systemansats contingency Business studies Företagsekonomi
45	Predicting Quality of Experience from Performance Indicators : Modelling aggregated user survey responses based on telecommunications networks performance indicators / Estimering av användarupplevelse från prestanda indikatorer Vestergaard, Christian January 2022 (has links) As user experience can be a competitive edge, it lies in the interest of businesses to be aware of how users perceive the services they provide. For telecommunications operators, how network performance influences user experience is critical. To attain this knowledge, one can survey users. However, sometimes users are not available or willing to answer. For this reason, there exists an interest in estimating the quality of user experience without having to ask users directly. Previous research has studied how the relationship between network performance and the quality of experience can be modelled over time through a fixed window classification approach. This work aims to extend this research by investigating the applicability of a regression approach without the fixed window limitation by the application of an Long Short Term Memmory based Machine Learning model. Aggregation of both network elements and user feedback through the application of three different clustering techniques was used to overcome challenges in user feedback sparsity. The performance while using each clustering technique was evaluated. It was found that all three methods can outperform a baseline based on the weekly average of the user feedback. The effect of applying different levels of detrending was also examined. It was shown that detrending the time series based on a smaller superset may increase overall performance but hinder relative model improvement, indicating that some helpful information may be lost in this process. The results should inspire future works to consider a regression approach for modelling Quality of Experience as a function of network performance as an avenue worthy of further study. This work should also motivate further research into the generalizability of models trained on network elements that reside in areas of different urban and rural conditions. / Användarupplevelsen kan utgöra en konkurrensfördel och således ligger det i marknadsaktörernas intressen att vara medvetna om hur användarna upplever det tjänster de erbjuder. Före telekommunikationsoperatörer är det kritiskt at vare varse om hur nätverkets prestanda influerar användarnas upplevelse. För att förskaffa sig den informationen kan operatörer välja att fråga användarna direkt. Detta kan dock vara svårt då användare kanske inte finns tillgängliga för eller inte är villiga att besvara operatörens frågor. Med detta som utgångspunkt finns det därför ett intresse för att estimera kundernas upplevelse utan att direkt fråga dem. Tidigare studier har undersökt möjligheten att genom klassificeringsmetoder som tillämpats på avgränsade tidsfönster modellera förhållandet mellan nätverksprestanda och kundupplevelse. Detta arbete syftar till att utvidga forskningsområdet genom att studera tillämparbarheten av att använda regressionsmetoder utan begränsningen av ett avgränsat tidsfönster. Detta ska göras genom att tillämpa en Long Short Term Memmory baserad maskininlärningsmodell. Genom att aggregera både nätverkselement och användarfeedback i en process som nyttjat tre olika klustringstekniker har utmaningar med glesfördelad feedback från användare hanterats. Resultaten av att använda vardera klustringsteknik har utvärderats. Från utvärderingen fans att alla tre metoder presterar bättre än ett jämförelsemått bestående av ett veckovis genomsnitt av användarnas återkoppling. Effekten av att applicera olika nivåer av aggregering för att ta bort trender i data. Resultaten visar att modellerna presenterat bättre då den övermängd som används för att ta bort trenden i en given delmängd då skillnaden mellan dessa är mindre. Dock försämrades den relative förbättringen hos modellerna då skillnaden mellan delmängd och övermängd minskade. Detta tror indikera att nyttig information i sammanhanget går förlorad i processen av att ta bort trenden i datamängden. De uppnådda resultaten bör inspirera framtida studier till att ha regressionsmodeller i åtanke när användarupplevelsen skall modelleras som en funktion av närverkets prestanda. Detta arbete borde även motivera vidare forskning kring huruvida modeller som tränats på nätverkselement belägna i urbana eller lantliga områden generaliserar till nätverks element i andra områden. Quality of Experience Telecommunication Regression Long Short Term Memmory Clustering K-means Gaussian Mixture Models Användarupplevelse Telekommunikation Regression Long Short Term Memmory Klusteranalys K-means Gaussian Mixture Models Computer and Information Sciences Data- och informationsvetenskap
46	Analys av hörnsekvenser i svensk elitfotboll : Gruppering av hörnsekvenser och utvärdering av sannolikhet för skott med logistisk hierarkisk modellstruktur / Analysis of corner sequences in the top Swedish football leagues : Clustering of corner sequences and evaluation of the probability of shot with logistical hierarchical model structure Rydström, Sidney, Lindén, Jakob January 2020 (has links) Sportanalys definieras av Alamar (2013) som användning av historisk data för att applicera modeller som kan ge information till beslutstagare inom en viss organisation. Det ger dem möjlighet att assistera sin organisation för att få en sportslig fördel. I den här studien utförs sportanalys, mer specifikt analyseras hörnsekvenser inom svensk elitfotboll. En hörnsekvens är den sekvens av händelser som sker från att bollen sätts i spel från hörnans startposition tills det att något av följande villkor uppfylls: 8 händelser sker givet att hörnan slås kort 6 händelser sker givet att hörnan slås långt 15 sekunder passerar Försvarande lag tar över bollen Något lag utför ett regelbrott Skott utförs av attackerande lag Datamaterialet som används är framtaget av företaget Wyscout och tillhandahållet av Football Analytics Sweden AB. De ligor och säsonger som betraktas är de svenska herrligorna Allsvenskan och Superettan för säsongerna 2017, 2018 och 2019. I datamaterialet erhålls information om varje händelse som sker under matchen. Utifrån information om händelsen samt koordinater om var händelsen sker framställs variabler som ska kunna beskriva vad som sker inom en hörnsekvens. Syftet med studien är att först identifiera hörnsekvenser med liknande egenskaper och gruppera dem. Utifrån gruppindelningen undersöks sedan sannolikheten för att en hörnsekvens leder till skott samt vad som påverkar sannolikheten. Algoritmen Partitioning Around Medoids (PAM) används med avståndsmåttet Gower och utvärderingsmåttet silhouette för att identifiera följande fem hörnsekvenstyper: Utåtskruvade hörnor från vänsterhörn med tendens mot främre stolpen och relativt nära mållinjen. Inåtskruvade hörnor från vänsterhörn med tendens mot främre stolpen och längre förflyttning ut från mållinjen. Utåtskruvade hörnor från högerhörn med tendens mot främre stolpen och relativt nära mållinjen. Korta varianter som har längre varaktighet, innefattar fler händelser och involverar fler spelare. Inåtskruvade hörnor från högerhörn med tendens mot främre stolpen och längre förflyttning ut från mållinjen. Betraktas förekomsten av skott i datamaterialet givet klusterstrukturen konstateras att hörnsekvenstyp 4 i störst utsträckning lett till skott med förekomsten 19 procent inom klustret. Hörnsekvenstyperna 2 och 5 är något sämre med respektive 18 procent av hörnsekvenserna som lett till skott. Med dessa hörnsekvenstyper i fokus anpassas flera Bayesianska hierarkiska logitmodeller för att undersöka sannolikheten för att en hörnsekvens leder till skott givet de framtagna variablerna. Vid skapandet av modellerna undersöktes om en hierarkisk modellstruktur var behövlig för att undersöka sannolikheten för skott. Slutsatsen blev att det är väsentligt att tillämpa en hierarkisk modellstruktur. Av vald modell så dras slutsatsen att det som påverkar sannolikheten att komma till skott allra mest, med avseende de variabler som undersökts, är antalet händelser som sker i hörnsekvensen. Den hörnsekvenstyp som påverkas mest av antalet händelser är den korta varianten. Det diskuteras om hur det kan vara problematiskt att undersöka den linjära påverkan på log-oddset. Detta eftersom påverkan på sannolikheten för skott inte är densamma för en ökning mellan en och två händelser som mellan tre och fyra händelser. Det är även näst intill omöjligt att komma till skott på första händelsen i hörnsekvensen då händelsen utgörs av att hörnan slås. / Sports analysis is defined by Alamar (2013) as the management of structured historical data, the application of analytical models that utilize that data, and the use of information systems to inform decision makers and enable them to help their organization in gaining a competitive advantage on the field of play. This study focuses on sports analysis, more specifically corner sequences in Swedish elite football. A corner sequence is defined as the sequence of events that occur after the ball have been put into play from the corners start position up until that one of the following conditions are met: 8 events occur given a short corner is played 6 events occur given a long corner is played 15 seconds passes The defending team overtake the ball Some team performs a foul The attacking team performs a shot The data set used comes from Wyscout and is provided by Football Analytics Sweden AB. The data consist of games from the top Swedish football leagues for men: Allsvenskan and Superettan, and consists of games played in the seasons 2017, 2018 and 2019. In the data, information about every event that occur during the game is provided, where all events are classified to provide information about what happens at the specific event. The information about each event and its coordinates is then used produce variables to describe what occurs during a corner sequence. The purpose is to identify corner sequences with similar characteristics and group them together. Then use these groups to examine the probability that a corner sequence leads to a shot, and what influences this probability. The clustering algorithm Partitioning Around Medoids (PAM) is used with Gower as the dissimilarity measure and silhouette to evaluate the clusters, then the five following clusters are identified: Corners curled away from goal from the left corner with a tendency towards the front post and relatively close to the goal line. Corners curled towards goal from the left corner with a tendency towards the front post further away from the goal line. Corner curled away from goal from the right corner with a tendency towards the goal line. Short corner variant with longer duration, more events occurring and more players involved. Corners curled towards goal from the right corner with a tendency towards the front post and further away from the goal line. Given the clustering structure it is noted that the corner sequence of type 4 has led to the greatest extent of shots with the proportion of 19 percent within the cluster. The corner sequences of type 2 and 5 have a slightly lower shot occurrence with 18 percent per corner seqence type. With these corner sequence types in focus, several Hierarchical Bayesian Logistic Regression models are fitted to analyze the probability that a corner sequence leads to a shot given the produced explanatory variables. When fitting the models it is examined if it is necessary to apply a hierarchichal strutcture to the model. The conclusion is drawn that the hierarchical model structure is crucial to the model's performance. The conclusion is drawn from the final model that the explanatory variable which explains the probability to shoot best is the number of events that occur during the corner sequence. The corner sequence type that is most influenced by the number of events that occur during the corner sequence is the short corner variant. In the study it is discussed if there is an issue to suppose that this variable has a linear effect on the log-odds, since the impact on the probability to shoot is not the same for an increase between one and two as three and four events. Furthermore it is near impossible to shoot in the first event that occurs in the corner sequence. Bayesian Statistics cluster analysis logistical hierarchical model structure sports analysis soccer football shot corner Bayesiansk statistik klusteranalys logistisk hierarkisk modellstruktur sportanalys fotboll skott hörnor Allsvenskan Superettan Probability Theory and Statistics Sannolikhetsteori och statistik
47	Customer segmentation of retail chain customers using cluster analysis / Kundsegmentering av detaljhandelskunder med klusteranalys Bergström, Sebastian January 2019 (has links) In this thesis, cluster analysis was applied to data comprising of customer spending habits at a retail chain in order to perform customer segmentation. The method used was a two-step cluster procedure in which the first step consisted of feature engineering, a square root transformation of the data in order to handle big spenders in the data set and finally principal component analysis in order to reduce the dimensionality of the data set. This was done to reduce the effects of high dimensionality. The second step consisted of applying clustering algorithms to the transformed data. The methods used were K-means clustering, Gaussian mixture models in the MCLUST family, t-distributed mixture models in the tEIGEN family and non-negative matrix factorization (NMF). For the NMF clustering a slightly different data pre-processing step was taken, specifically no PCA was performed. Clustering partitions were compared on the basis of the Silhouette index, Davies-Bouldin index and subject matter knowledge, which revealed that K-means clustering with K = 3 produces the most reasonable clusters. This algorithm was able to separate the customer into different segments depending on how many purchases they made overall and in these clusters some minor differences in spending habits are also evident. In other words there is some support for the claim that the customer segments have some variation in their spending habits. / I denna uppsats har klusteranalys tillämpats på data bestående av kunders konsumtionsvanor hos en detaljhandelskedja för att utföra kundsegmentering. Metoden som använts bestod av en två-stegs klusterprocedur där det första steget bestod av att skapa variabler, tillämpa en kvadratrotstransformation av datan för att hantera kunder som spenderar långt mer än genomsnittet och slutligen principalkomponentanalys för att reducera datans dimension. Detta gjordes för att mildra effekterna av att använda en högdimensionell datamängd. Det andra steget bestod av att tillämpa klusteralgoritmer på den transformerade datan. Metoderna som användes var K-means klustring, gaussiska blandningsmodeller i MCLUST-familjen, t-fördelade blandningsmodeller från tEIGEN-familjen och icke-negativ matrisfaktorisering (NMF). För klustring med NMF användes förbehandling av datan, mer specifikt genomfördes ingen PCA. Klusterpartitioner jämfördes baserat på silhuettvärden, Davies-Bouldin-indexet och ämneskunskap, som avslöjade att K-means klustring med K=3 producerar de rimligaste resultaten. Denna algoritm lyckades separera kunderna i olika segment beroende på hur många köp de gjort överlag och i dessa segment finns vissa skillnader i konsumtionsvanor. Med andra ord finns visst stöd för påståendet att kundsegmenten har en del variation i sina konsumtionsvanor. Cluster analysis customer segmentation tEIGEN MCLUST K-means NMF Silhouette Davies-Bouldin big spenders statistics applied mathematics unsupervised learning Klusteranalys kundsegmentering tEIGEN MCLUST K-means NMF Silhouette Davies-Bouldin storkonsumenter statistik tillämpad matematik Probability Theory and Statistics Sannolikhetsteori och statistik
48	United through Division: An Innovative Approach to European Monetary Policy : A Study of the Optimal Currency Areas in the European Union through Cluster Analysis Conducted on Samples Between 2007–2019 Gadén, Marinda, Granberg, Alexander January 2023 (has links) The study deals with the theory of optimal currency areas complemented with the EU's Maastricht criteria in order to investigate how today’s Economic and Monetary Union of the European Union can be divided into smaller unions with countries that are more homogeneous based on said criteria compared to the current larger currency union. To investigate this, we use cluster analysis as the method easily enables analysis of similarities and differences between countries. The results show that the optimal number of clusters for the nations in the EU in 2007, 2008, 2010 and 2015 is ten and that the optimal number of clusters in 2019 is seven. We also observe a relatively distinct division between western and eastern countries, which splits the countries in two clusters. These two clusters are consistent over the studied years, however not considered the most optimal according to cluster analysis. Nonetheless, with respect to political, geographical, and cultural aspects, we conclude that having two different currencies within the European Union being the most realistic. / Studien behandlar teorin om optimala valutaområden, kompletterat med EU:s Maastrichtkriterier för att undersöka hur den nuvarande ekonomiska och monetära unionen i EU kan delas in i mindre unioner med länder som är mer homogena utifrån nämnda kriterier jämfört med dagens större valutaunion. För att undersöka detta använder vi oss av klusteranalys eftersom metoden på ett enkelt sätt möjliggör analys av likheter och skillnader mellan länder. Resultatet visar att optimalt antal kluster för länderna i EU under åren 2007, 2008, 2010 och 2015 är tio och att optimalt antal kluster under år 2019 är sju. Vi observerar också en relativt tydlig uppdelning mellan de västra och östra länderna, som delar länderna i EU i två större kluster. Dessa två kluster är enhetliga över de undersökta åren, men inte helt optimala enligt klusteranalysen. Trots detta, så bedömer vi att dela in den Europeiska unionen i två valutaunioner är den mest realistiska slutsatsen utifrån politiska, geografiska, och kulturella skillnader. / Die Studie behandelt die Theorie der optimalen Währungsräume, ergänzt durch die Maastricht-Kriterien der EU, um zu untersuchen, wie die heutige europäische Wirtschafts-und Währungsunion in kleinere Unionen aufgeteilt werden kann. Diese Unionen sollten auf der Grundlage dieser Kriterien homogener als die heutige größere Währungsunion sein. Um dies zu untersuchen, verwenden wir Clusteranalyse, da diese Methode die Analyse von Ähnlichkeiten und Unterschieden zwischen den Ländern leicht ermöglicht. Die Studie zeigt, dass die optimale Anzahl von Clustern für die EU-Länder in den Jahren 2007, 2008, 2010 und 2015 bei einer Größe von zehn liegt und dass die optimale Anzahl von Clustern im Jahr 2019 bei sieben liegt. Wir finden auch eine ziemlich deutliche Aufteilung zwischen westlichen und östlichen Ländern. Diese zwei Clustern sind über den studierten Jahren durchgängig, aber laut der Klusteranalyse nicht völlig optimal. Dennoch finden wir, die Europäische Union in zwei Währungsunionen verteilen, die am meisten realistische Schlussfolge laut politische, geographische, und kulturellen Aspekten ist. European Union Monetary Union Cluster Analysis European Monetary Union Euro Europäische Union Währungsunion Klusteranalyse Euro Europeiska unionen valutaunion klusteranalys europeiska monetära unionen Euro Economics Nationalekonomi
49	Feature extraction from MEG data using self-supervised learning : Investigating contrastive representation learning methods to f ind informative representations / Särdragsextrahering från MEG data med självövervakad inlärning : Undersökning av kontrastiv representationsinlärning för att hitta informativa representationer Ågren, Wilhelm January 2022 (has links) Modern day society is vastly complex, with information and data constantly being posted, shared, and collected everywhere. There is often an abundance of massive amounts of unlabeled data that can not be leveraged in a supervised machine learning context. Thus, there exists an incentive to research and develop machine learning methods which can learn without labels. Selfsupervised learning (SSL) is a newly emerged machine learning paradigm that aims to learn representations that can later be used in domain specific downstream tasks. In this degree project three SSL models based on the Simple Framework for Contrastive Learning of Visual Representations (SimCLR) are evaluated. Each model aims to learn sleep deprivation related representations on magnetoencephalography (MEG) measurements. MEG is a non-invasive neuroimaging technique that is used on humans to investigate neuronal activity. The data was acquired through a collaboration with Karolinska Institutet and Stockholm University, where the SLEMEG project was conducted to study the neurophysiological response to partial sleep deprivation. The features extracted by the SSL-models are analyzed both qualitatively and quantitatively, and also used to perform classification and regression tasks on subject labels. The results show that the evaluated Signal- and Recording SimCLR models can learn sleep deprivation related features, whilst simultaneously learning other co-occuring information also. Furthermore, the results indicate that the learned representations are informative and can be utilized for multiple downstream tasks. However, it is noted that what has been learned is mostly related to subject-specific individual variance, which leads to poor generalization performance on classification and regression downstream tasks. Thus, it is believed that the models would perform better with access to more MEG data, and that source localized MEG data could remove part of the individual variance that is learned. / Den moderna dagens samhälle är enormt komplext, information och data blir konstant postat, delat, och insamlat överallt. På grund av det så finns det ofta ett överflöd av massiva mängder omärkt data some inte kan användas i ett övervakat maskininlärnings-sammanhang. Därmed finns det ett incitament att forska om och utveckla maskininlärningsmetoder som kan lära modeller utan tillgång till märkningar. Självövervakad inlärning (SSL) är en modern metod som nyligen har fått mycket fokus, vars mål är att lära sig representationer av datat som sedan kan användas i domänspecifika nedströmsuppgifter. I det här examensarbetet så är tre SSL metoder evaluerade där de alla strävar efter att lära sig representationer relaterat till sömndeprivering på magnetoencefalografi (MEG) mätningar. MEG är en icke-invasiv metod som används på människor för att undersöka neuronal aktivitet. Datat var förvärvat genom ett sammarbeta med Karolinska Institutet och Stockholms Universitet, där SLEMEG studien hade blivit genomförd för att studera neurofysiologisk respons på sömndeprivering. De av SSL-modellerna extraherade särdragen är analyserade både kvalitativt samt kvantitativt, och sedan använda för att genomföra klassificerings och regressions-uppgifter. Resultaten visar på att de evaluerade Signal- och Recording SimCLR modellerna kan lära sig särdrag relaterade till sömndepriverad, men samtidigt också lära sig annan samförekommande information. Dessutom så indikerar resultaten att de lärda representationerna är informativa och kan då användas i flera olika nedströmsuppgifter. Dock så noteras det att det som blivit inlärt är mestadels relaterat till individ-specifik varians, vilket leder till dålig generaliseringsprestanda. Således är det trott att modellerna hade presterat bättre med tillgång till mer MEG data, samt att källlokalisering av MEG datat hade kunnat ta bort en del av den individuella variansen som blir inlärd. Machine learning Deep learning Self-supervised learning Cluster analysis SimCLR Magnetoencephalography Partial sleep deprivation Wavelet transform Maskininlärning Djupinlärning Självövervakad inlärning Klusteranalys SimCLR Magnetoencefalografi Delvis sömndeprivering Wavelet transform Computer Sciences Datavetenskap (datalogi)
50	Long-term forecasting model for future electricity consumption in French non-interconnected territories CARON, MATHIEU January 2021 (has links) In the context of decarbonizing the electricity generation of French non-interconnected territories, the knowledge of future electricity demand, in particular annual and peak demand in the long-term, is crucial to design new renewable energy infrastructures. So far, these territories, mainly islands located in the Pacific and Indian ocean, relies mainly on fossil fuels powered facilities. Energy policies envision to widely develop renewable energies to move towards a low-carbon electricity mix by 2028. This thesis focuses on the long-term forecasting of hourly electricity demand. A methodology is developed to design and select a model able to fit accurately historical data and to forecast future demand in these particular territories. Historical data are first analyzed through a clustering analysis to identify trends and patterns, based on a k-means clustering algorithm. Specific calendar inputs are then designed to consider these first observations. External inputs, such as weather data, economic and demographic variables, are also included. Forecasting algorithms are selected based on the literature and they are than tested and compared on different input datasets. These input datasets, besides the calendar and external variables mentioned, include different number of lagged values, from zero to three. The combination of model and input dataset which gives the most accurate results on the testing set is selected to forecast future electricity demand. The inclusion of lagged values leads to considerable improvements in accuracy. Although gradient boosting regression features the lowest errors, it is not able to detect peaks of electricity demand correctly. On the contrary, artificial neural network (ANN) demonstrates a great ability to fit historical data and demonstrates a good accuracy on the testing set, as well as for peak demand prediction. Generalized additive model, a relatively new model in the energy forecasting field, gives promising results as its performances are close to the one of ANN and represent an interesting model for future research. Based on the future values of inputs, the electricity demand in 2028 in Réunion was forecasted using ANN. The electricity demand is expected to reach more than 2.3 GWh and the peak demand about 485 MW. This represents a growth of 12.7% and 14.6% respectively compared to 2019 levels. / I samband med utfasningen av fossila källor för elproduktion i franska icke-sammankopplade territorier är kunskapen om framtida elbehov, särskilt årlig förbrukning och topplast på lång sikt, avgörande för att utforma ny infrastruktur för förnybar energi. Hittills är dessa territorier, främst öar som ligger i Stilla havet och Indiska oceanen, beroende av anläggningar med fossila bränslen. Energipolitiken planerar att på bred front utveckla förnybar energi för att gå mot en koldioxidsnål elmix till 2028. Denna avhandling fokuserar på den långsiktiga prognosen för elbehov per timme. En metod är utvecklad för att utforma och välja en modell som kan passa korrekt historisk data och för att förutsäga framtida efterfrågan inom dessa specifika områden. Historiska data analyseras först genom en klusteranalys för att identifiera trender och mönster, baserat på en k-means klusteralgoritm. Specifika kalenderinmatningar utformas sedan för att beakta dessa första observationer. Externa inmatningar, såsom väderdata, ekonomiska och demografiska variabler, ingår också. Prognosalgoritmer väljs utifrån litteraturen och de testas och jämförs på olika inmatade dataset. Dessa inmatade dataset, förutom den nämnda kalenderdatan och externa variabler, innehåller olika antal fördröjda värden, från noll till tre. Kombinationen av modell och inmatat dataset som ger de mest exakta resultaten på testdvärdena väljs för att förutsäga framtida elbehov. Införandet av fördröjda värden leder till betydande förbättringar i exakthet. Även om gradientförstärkande regression har de lägsta felen kan den inte upptäcka toppar av elbehov korrekt. Tvärtom, visar artificiella neurala nätverk (ANN) en stor förmåga att passa historiska data och visar en god noggrannhet på testuppsättningen, liksom för förutsägelse av toppefterfrågan. En generaliserad tillsatsmodell, en relativt ny modell inom energiprognosfältet, ger lovande resultat eftersom dess prestanda ligger nära den för ANN och representerar en intressant modell för framtida forskning. Baserat på de framtida värdena på indata, prognostiserades elbehovet 2028 i Réunion med ANN. Elbehovet förväntas nå mer än 2,3 GWh och toppbehovet cirka 485 MW. Detta motsvarar en tillväxt på 12,7% respektive 14,6% jämfört med 2019 års nivåer. Long-term forecasting electricity demand peak demand energy planning clustering analysis artificial neural network generalized additive model Långsiktig prognostisering elbehov topplast energiplanering klusteranalys artificiellt neuralt nätverk generaliserad tillsatsmodell Engineering and Technology Teknik och teknologier

Search results