Global ETD Search

201	A metaheuristic for vehicle routing problems based on reinforcement learning / En metaheuristik för ruttoptimering baserad påreinforcement learning Ödling, David January 2018 (has links) The vehicle routing problem is an old and well-studied problem that arise in last mile logistics. The rapid increase of e-commerce, in particular with an increasing the demand for time scheduled home deliveries on the customer’s terms, is making the problem ever more relevant. By minimizing the cost and environmental impact, we have the setting for mathematical problem called the vehicle routing problem with time windows. Since the problem is NP-Hard, heuristic methods are often used. In practice, they work very well and typically offer a good tradeoff between speed and quality. However, since the heuristics are often tailormade to fit the needs of the underlying problem, no known algorithm dominates the other on all problems. One way to overcome the need for specialization is to produce heuristics that are adaptive. In this thesis, an offline learning method is proposed to generate an adaptive heuristic using local search heuristics and reinforcement learning. The reinforcement learning agents explored in this thesis are situated in both discrete and continuous state representations. Common to all state spaces are that they are inspired by human-crafted reference models where the last action and the result of that action define the state. Four different reinforcement learning models are evaluated in the various environments. By evaluating the models on a subset of the Solomon benchmark instances, we find that all models but one improve upon a random baseline. The average learner from each of the successful models was slightly worse than the human crafted baseline. However, the best among the generated models was an actor-critic based model which outperformed the best human baseline model. Due to the scalar objective function, the results are not directly comparable to the Solomon benchmark results with hierarchal objectives. None the less, the results are encouraging as a proof of principle with results in line with the human crafted baseline. The results indicate two clear paths for further work. First, applying the formulation to more complex environments with more actions and more powerful state spaces. Secondly, investigate models based on stochastic policies and recurrent neural networks to cope with the inherently partially observed environment. / Ruttoptimering är ett gammalt och välstuderat optimeringsproblem som uppstår i city-nära logistik. Med en ständigt växande e-handel, ökar efterfrågan av tidspassade hemleveranser på kundens villkor. Att minimera kostnaden och miljöpåverkan blir då ett ruttoptimeringsproblem med tidsfönster. Då optimerinsproblemet är NP-Svårt, används heuristiska lösningsmetoder. I denna uppsatts undersöks möjligheten att generera heuristiker genom att träna på liknande problem. Mer specifikt genererar vi en heurisitik baserad på lokalsök genom att formulera lärningsproblemet som ett reinforcement learning problem. De metoder som används är baserade på både diskreta och kontinuerliga tillståndsrum. Gemensamt för tillståndsrummen är att de är inspirerade av den information som används av mänskligt genererade heuristiker där det tidigare valet valet och dess resultat är informationsbärare. Fyra olika reinforcement learning modeller utvärderas på olika problem samt tillståndsrymnder. Genom att träna modellerna på olika typer av problem från de välkända Solomon problemen och utvärdera dessa på ett oberoende test set, kan vi konstatera att alla utom en modell är bättre än slumpen. Ingen av modellerna slog dock den bästa referensmodellen i medeltal då variationen i utfallet var stort, men de är alla mycket nära. Den bästa bland alla modeller, vilket var en actor critic agent, uppnådde ett bättre resultat än den bästa referensmodellen. På grund av att en skalär målfunktion använts är resultaten inte direkt jämförbara med andras på Solomon problemen då de skall optimeras med en hierarkisk målfunktion. Trotts detta är resultaten goda och visar att metoden som introducerats fungerar bra eftersom de presterar i linje med referensmodellerna baserade på samma information. Resultaten pekar på två vägar framåt för vidare arbete. Det första är en mera kraftfull tillståndsrymd med mera information samt fler handlingsmöjligheter. Det andra är att applicera stokastiska baserade modeller eller motsvarande för att överkomma tillståndsrymndernas inneboende ofullständighet. Computational Mathematics Beräkningsmatematik
202	Application of Polynomial Chaos Expansion for Climate Economy Assessment / Applikation av polynomial chaos expansion för bedömning av klimatekonomi Nydestedt, Robin January 2018 (has links) In climate economics integrated assessment models (IAMs) are used to predict economic impacts resulting from climate change. These IAMs attempt to model complex interactions between human and geophysical systems to provide quantifications of economic impact, typically using the Social Cost of Carbon (SCC) which represents the economic cost of a one ton increase in carbon dioxide. Another difficulty that arises in modeling a climate economics system is that both the geophysical and economic submodules are inherently stochastic. Even in frequently cited IAMs, such as DICE and PAGE, there exists a lot of variation in the predictions of the SCC. These differences stem both from the models of the climate and economic modules used, as well as from the choice of probability distributions used for the random variables. Seeing as IAMs often take the form of optimization problems these nondeterministic elements potentially result in heavy computational costs. In this thesis a new IAM, FAIR/DICE, is introduced. FAIR/DICE is a discrete time hybrid of DICE and FAIR providing a potential improvement to DICE as the climate and carbon modules in FAIR take into account feedback coming from the climate module to the carbon module. Additionally uncertainty propagation in FAIR/DICE is analyzed using Polynomial Chaos Expansions (PCEs) which is an alternative to Monte Carlo sampling where the stochastic variables are projected onto stochastic polynomial spaces. PCEs provide better computational efficiency compared to Monte Carlo sampling at the expense of storage requirements as a lot of computations can be stored from the first simulation of the system, and conveniently statistics can be computed from the PCE coefficients without the need for sampling. A PCE overloading of FAIR/DICE is investigated where the equilibrium climate sensitivity, modeled as a four parameter Beta distribution, introduces an uncertainty to the dynamical system. Finally, results in the mean and variance obtained from the PCEs are compared to a Monte Carlo reference and avenues into future work are suggested. / Inom klimatekonomi används integrated assessment models (IAMs) för att förutspå hur klimatförändringar påverkar ekonomin. Dessa IAMs modellerar komplexa interaktioner mellan geofysiska och mänskliga system för att kunna kvantifiera till exempel kostnaden för den ökade koldioxidhalten på planeten, i.e. Social Cost of Carbon (SCC). Detta representerar den ekonomiska kostnaden som motsvaras av utsläppet av ett ton koldioxid. Faktumet att både de geofysiska och ekonomiska submodulerna är stokastiska gör att SCC-uppskattningar varierar mycket även inom väletablerade IAMs som PAGE och DICE. Variationen grundar sig i skillnader inom modellerna men också från att val av sannolikhetsfördelningar för de stokastiska variablerna skiljer sig. Eftersom IAMs ofta är formulerade som optimeringsproblem leder dessutom osäkerheterna till höga beräkningskostnader. I denna uppsats introduceras en ny IAM, FAIR/DICE, som är en diskret tids hybrid av DICE och FAIR. Den utgör en potentiell förbättring av DICE eftersom klimat- och kolmodulerna i FAIR även behandlar återkoppling från klimatmodulen till kolmodulen. FAIR/DICE är analyserad med hjälp av Polynomial Chaos Expansions (PCEs), ett alternativ till Monte Carlo-metoder. Med hjälp av PCEs kan de osäkerheter projiceras på stokastiska polynomrum vilket har fördelen att beräkningskostnader reduceras men nackdelen att lagringskraven ökar. Detta eftersom många av beräkningarna kan sparas från första simuleringen av systemet, dessutom kan statistik extraheras direkt från PCE koefficienterna utan behov av sampling. FAIR/DICE systemet projiceras med hjälp av PCEs där en osäkerhet är introducerad via equilibrium climate sensitivity (ECS), vilket i sig är ett värde på hur känsligt klimatet är för koldioxidförändringar. ECS modelleras med hjälp av en fyra-parameters Beta sannolikhetsfördelning. Avslutningsvis jämförs resultat i medelvärde och varians mellan PCE implementationen av FAIR/DICE och en Monte Carlo-baserad referens, därefter ges förslag på framtida utvecklingsområden. Computational Mathematics Beräkningsmatematik
203	Machine Learning Approaches on a Travel Time Prediction Problem Danielsson, Sara January 2018 (has links) This thesis concerns the prediction of travel times between two points on a map, based on a combination of link-scale road network data and historical trip-scale data. The main idea is that the predictions using the road network data can be improved by a correction factor estimated from historical trip data. The correction factor is estimated both using a Machine Learning approach, more specifically Gaussian Progress Regression, and a simple baseline method inspired by an approach in the literature. The Gaussian Progress Regression is performed using a string kernel and a squared exponential kernel. The Gaussian Process Regression using the string kernel outperforms both the baseline and the squared exponential kernel, and is hence the most promising approach on the considered problem. / Denna rapport behandlar uppskattningar av restider mellan två punkter på en karta, utifrån en kombination data från vägnät (på en skala av vägsegment) och historisk data från utförda resor (på en större skala, som resorna). Huvudidén är att uppskattningarna kan förbättras genom att införa en korrigeringsfaktor som uppskattas utifrån den historiska resdatan. Korrigeringsfaktorn uppskattas både genom maskininlägningsmetoder, mer specifikt med regression baserad på Gaussianska processer, och med en enkel referensmetod inspirerad av en metod i litteraturen. Två olika kärnfunktioner används vid den Gaussinaska regressionen: en kvadratiskt exponentiellt kärna och en strängkärna. Den metod som använder strängkärnan är den mest lovande metoden i denna studie, då den presterar bättre än de båda andra. Computational Mathematics Beräkningsmatematik
204	Analyzing and Extending a Bulk Mail Postage Optimization Model Kroon, Malte January 2018 (has links) Postage is a big cost for companies and agencies that are sending large volumes of physical mail. This cost can be reduced by getting bulk discounts. Mathematical optimization is used to ensure that the lowest prices possible are found. This thesis will analyze an existing model used by a company and explain how it works. The model will also be expanded to make it applicable to new pricing models. The model is in the form of a mixed integer linear program and it is used to optimize the cost of a batch of bulk mail. The original model can handle price models where the discounts are reached by sending large volumes of letters. Not all mail delivery companies provide such discounts however. The model is then extended to allow other forms of discounts. Three extensions of the original model were implemented. The effectiveness of the extensions of the model are measured by comparing the prices attained by using the extended model and the original model. The results are discussed to assess if the implementation of the extension are worthwhile. The first extension of the model was made to allow the mixing of mail with different allowed delivery times. The problem was to ensure that the mail was not delivered slower than what was promised. By mixing the mail with different delivery times larger volumes could be attained and greater discounts were achieved which lead to better results overall. The second extension that was made was to make the model able to handle discounts based on the mean weight of the letters that are sent. The model is adjusted to work with this price model. This change did not yield a lower price than the original model in all cases. The explanation for this is that the original model is less flexible when different price models are used and therefore the extended model is more suitable to use. The last extension made was implemented to bypass an existing rule that forbids letters with too great of a weight difference to be sent together. The goal was to make the model more flexible. No conclusive improvement of the results were seen for this extension. / Porto är en stor kostnad för företag och myndigheter som skickar stora volymer av post. Den här kostnaden kan minskas genom att erhålla mängdrabatter. Matematisk optimering används för att hitta de lägsta möjliga priserna. I den här rapporten kommer en befintlig modell att analyseras och förklaras. Modellen kommer sedan att utvecklas så att den kan användas med nya prismodeller. Modellen är formulerad som ett blandat heltalsprogram och den används för att minimera portot för ett massutskick av brev. Den befintliga modellen klarar av att hantera prismodeller där rabatterna erhålls genom att skicka tillräckligt stora volymer. Det är dock inte alla postleverantörer som erbjuder mängdrabatter. Modellen utvidgades då för att kunna utnyttja andra typer av rabatter. Tre utvidgningar av den befintliga modellen implementerades. Effektiviteten av utvidgningarna mättes genom att jämföra portokostnaderna som erhölls för den utvidgade modellen och den ursprungliga modellen. Resultaten diskuterades för att bestämma om det är en god idé att implementera ändringarna. Den första utvidgningen av modellen gjordes för tillåta brev med olika leveranstider att blandas och skickas tillsammans. Kravet var att försäkra sig om att inga brev anlände långsammare än vad som utlovades. Genom att blanda breven med olika leveranstider kunde större volymer skickas samtidigt och bättre mängdrabatter erhölls vilket i sin tur resulterade i lägre kostnader. Den andra utvidgningen var att göra så att modellen kunde hantera rabatter baserade på genomsnittsvikten av alla skickade brev. Den här ändringen resulterade inte i lägre kostnader i samtliga fall. Förklaringen till detta var att den ursprungliga modellen var mindre flexibel när andra prismodeller används och därför är den utvidgade modellen mer lämplig att använda. Den sista utvidgningen som gjordes hade som syfte att kringgå en regel som förbjuder att två brev med för stor viktskillnad skickas tillsammans. Målet var att göra modellen mer flexibel. Inga tydliga förbättringar av resultatet kunde uppmätas för den här utvidgningen. Computational Mathematics Beräkningsmatematik
205	Forecasting High Yield Corporate Bond Industry Excess Return Lopez Vydrin, Carlos Junior January 2018 (has links) In this thesis, we apply unsupervised and supervised statistical learning methods on the high-yield corporate bond market with the goal of predicting its future excess return. We analyse the excess return of industry based indices of high-yield corporate bonds belonging to the Chemical, Metals, Paper, Building Materials, Packaging, Telecom, and Electric Utility industry. To predict the excess return of these high-yield corporate bond industry indices we utilised externally given market-observable financial time series from 96 different asset and indices that we believe to be of predictive value for the excess return. These input time series covers assets and indices of major equity indices, corporate credit spreads, FX-currencies, stock-, bond-, and FX volatility, swap rates, swap spreads, certain commodities, and macro economic surprise indices. After pre-processing the input data we arrive at 154 predictors that are used in a two-phase implementation procedure consisting of an unsupervised time series Agglomerative Hierarchical clustering and a supervised Random Forest regression model. We use the Hierarchical time series clustering and the Random Forest unbiased variable importance estimates as means to reduce our input predictor space to the ten most influential predictor variables for each industry. These ten most influential predictors are then used in a Random Forest regression model to predict [1, 3, 5, 10] day future cumulative excess return. To accommodate for the characteristics of sequential time series data we also apply a sliding window method to the input predictors and the response variable in our Random Forest model. The results show that excess returns in the various industries under study are predictable using Random Forest regression with our market-observable input data. The out-of-sample coefficient of determination R²out is in majority of the cases statistically significant at 0.01 level. The predictability varies across the industries and is in some cases dependent on whether we apply the sliding window method or not. Furthermore, applying the sliding window method on the predictors and the response variable showed in majority of the cases statistically significant improvements in the mean-squared prediction error. The variable importance estimates from such models show that the excess return time series exhibit some degree of autocorrelation. / I denna uppsats applicerar vi oövervakade och övervakade statistiska inlärningsmetoder på marknaden för högavkastande företagsobligationer med målet om att predicera dess framtida överavkastning. Vi analyserar överavkastningen för industribaserade index av företagsobligationer tillhörande Kemi-, Metal-, Pappers-, Byggnadsmaterial-, Paketerings-, Telekom-, och Kraftförsörjningsindustrin. För att predicera överavkastningen i dessa högavkastande företagsobligations-industriindex använder vi externa marknadsobserverande finansiella tidserier från 96 olika tillgångsklasser och index som vi tror är av prediktiv värde för överavkastningen. Denna input tidsserier täcker tillgångar och index för välkända aktieindex, företagskredit-spreadar, valutor, aktie-, obligations, och valutavolatilitet, swap räntor, swap spreadar, vissa råvaror, och makroekonomiska överraskningsindex. Efter att ha processat inputsdata har vi 154 olika prediktorer som används i en två-fas implementeringsprocedur bestående av en oövervakad tidserie Agglomerativ Hierarkisk klustering och en övervakad Random Forest regressionsmodell. Vi använder den hierarkiska klusteringen och Random Forest fördomsfria variabel viktighetsuppskattningar som medel för att reducera inputsvariabelrummet till de tio mest inuerande prediktorvariablerna för varje industri. Dessa tio mest influerande prediktorer användes sedan i en Random Forest regressionsmodell för att predicera [1, 3, 5, 10] dagars kumulativ överavkastning. För att tillgodose för de egenskaper som sekventiell tidserie data uppvisar applicerar vi en Sliding Window metod på inputsprediktorerna och på själva responsvariabeln i vår Random Forest model. Resultaten visar att överavkastningen i de olika industrierna som vi studerar är förutspåbar när man använder Random Forest regression med vår marknadsobserverande inputsdata. Ur-samplings determinationskoefficienten R²out visar i de flesta fall på statistisk signifikans på en 0.01 nivå. Förutsägbarheten varierar över de olika industrierna och är i vissa fall beroende på om Sliding Window metoden är applicerad eller inte. Vidare visar resultaten att applicerandet av Sliding Window metoden på prediktorerna och responsvariabeln uppvisar i de flesta fallen på statistisk signifikant förbättring av dem medel-kvadrerade prediktionsfelet. Variabel viktighetsuppskattningarna från dessa modeller visar att överavkastning tidserierna uppvisar en viss grad autokorrelation. Computational Mathematics Beräkningsmatematik
206	Application and Evaluation of Artificial Neural Networks in Solvency Capital Requirement Estimations for Insurance Products / Applicering och utvärdering av artificiella neuronnätvid estimering av solvenskapitalkrav för försäkringsprodukter Nilsson, Mattias, Sandberg, Erik January 2018 (has links) The least squares Monte Carlo (LSMC) approach is commonly used in the estimation of the solvency capital requirement (SCR), as a more computationally efficient alternative to a full nested Monte Carlo simulation. This study compares the performance of artificial neural networks (ANNs) to that of the LSMC approach in the estimation of the SCR of various financial portfolios. More specifically, feedforward ANNs with multiple hidden layers are implemented and the results show that an ANN is superior in terms of accuracy compared to the LSMC approach. The ANN and LSMC approaches reduce the computation time to approximately 2-5% compared to a full nested Monte Carlo simulation. Significant time is however spent on validating and tuning the ANNs in order to optimise their performance. Despite continuous improvements in tools and techniques available for optimization and visualisation of ANNs, they are to a certain degree still regarded as “black boxes”. This study employs various tools and techniques to visualise and validate the implemented ANN models as extensively as possible. Examples include software libraries such as TensorFlow and Seaborn as well as methods to prevent overfitting such as weight regularisation and dropout. These tools and techniques do indeed contribute to shedding some light on the black box. Certain aspects of ANNs are however still difficult to interpret, which might make them less manageable in practise. / Least squares Monte Carlo (LSMC) används ofta vid estimering av solvenskapitalkrav (SCR), som ett mer beräkningseffektivt alternativ till vad som annars kräver en stor mängd Monte Carlo-simuleringar (full nästlad Monte Carlo-simulering). Denna studie undersöker hur artificiella neuronnät (ANNs) presterar jämfört med LSMCmetoden vid estimering av SCR för ett antal olika finansiella portföljer. Mer specifikt implementeras feedforward ANNs med flertalet dolda lager och resultaten framhäver att ANNs överträffar LSMC med avseende på prediktionskapacitet. ANNs och LSMC minskar beräkningstiden till 2-5% jämfört med en full nästlad Monte Carlo-simulering. Utöver beräkningstid behöver dock betydande tid spenderas på att optimera och validera ANNs prestanda. Trots kontinuerliga framsteg inom tillgängliga verktyg och tekniker för optimering och visualisering av ANNs så upplevs de fortfarande till viss del som “svarta lådor”. För att visualisera och validera de implementerade ANN-modellerna på ett så utförligt sätt som möjligt, använder denna studie ett flertal verktyg och tekniker, som exempelvis mjukvarorna TensorFlow och Seaborn samt metoder för att undvika överpassade modeller så som regularisering av vikter och dropout. Dessa verktyg och tekniker bidrar till att kasta ljus över den svarta lådan, men vissa aspekter av ANNs är fortfarande svåra att tolka vilket kan göra dem svårhanterliga i praktiken. Computational Mathematics Beräkningsmatematik
207	A Theoretical Framework for Bayesian Optimization Convergence / Ett teoretiskt ramverk för konvergens i Bayesiansk optimering Scotto Di Perrotolo, Alexandre January 2018 (has links) Bayesian optimization is a well known class of derivative-free optimization algorithms mainly used for expensive black-box objective functions. Despite their eﬃciency, they suﬀer from a lack of rigorous convergence criterion which makes them more prone to be used as modeling tools rather than optimizing tools. This master thesis proposes, analyzes, and tests a globally convergent framework (that is to say the convergence to a stationary point regardless the initial sample) for Bayesian optimization algorithms. The framework design intends to preserve the global search characteristics for minimum while being rigorously monitored to converge. / Bayesiansk optimering är en välkänd klass av globala optimeringsalgoritmer som inte beror av derivator och främst används för optimering av dyra svartlådsfunktioner. Trots sin relativa eﬀektivitet lider de av en brist av stringent konvergenskriterium som gör dem mer benägna att användas som modelleringsverktyg istället för som optimeringsverktyg. Denna rapport är avsedd att föreslå, analysera och testa en ett globalt konvergerande ramverk (på ett sätt som som beskrivs vidare) för Bayesianska optimeringsalgoritmer, som ärver de globala sökegenskaperna för minimum medan de noggrant övervakas för att konvergera. Computational Mathematics Beräkningsmatematik
208	Statistical evaluation model for future business opportunities of SAAB AB / Statistisk utvärderingsmodell av SAABs framtida affärsmöjligheter Hedén, Gustav January 2018 (has links) This thesis conducts a statistical analysis of the won and lost sell data for SAAB AB. The method of choice is logistic regression analysis against believed and confirmed statistically significant dependable data. The sell data is split by different products so that each product gets an individual evaluation. The outcome of the regression analysis is then implemented on non-ventured markets for a specific product. This provide an implied probability of a successful sale of a product to different countries. These implied probabilities form a ranking of different countries for a specific product. The ranking tables are then supposed to be used as a statistical input for SAAB employees to use when evaluating potential future market gains. / Den här uppsatsen genomför en statistisk analys av SAAB ABs vunna och förlorade affärer från dess försäljningsdata. Metoden som valdes är logistisk regressionsanalys och den är implementerad mot statistiskt signifikant och beroende data. Försäljningsdatan är uppdelad på olika produktområden så att varje produkt får sin egen analys. Resultatet av regressionsanalysen är sedan implementerad på olika länder som SAAB inte har försökt att sälja den undersökta produkten till. Detta ger sannolikheten för att genomföra en lyckad försäljning av en viss produkt till ett land. Dessa sannolikheter bildar sedan en ranking för de olika länderna för en specifik produkt. Rankingtabellerna är tänkta att användas som statistiskt underlag för SAABs anställda när de utvärderar potentiella framtida affärer. Computational Mathematics Beräkningsmatematik
209	A continuum approximation of the Fermi-Pasta-Ulam-Tsingou model with Langevin dynamics / En kontinuumapproximation av Fermi-Pasta-Ulam-Tsingou modellen med Langevindynamik Meder, Markus January 2017 (has links) In continuum mechanics, the conservation laws for mass, momentum and energy coupled with the constitutive relations of the stress and heat flux could be a powerful solution method for continuum systems. However, it is required that the equations form a closed system, i.e. that the stress and heat flux are formulated as functions of the conserved variables. This thesis studies the constitutive relations of the stress and heat flux in the Fermi-Pasta-Ulam-Tsingou model with Langevin dynamics, by the means of molecular dynamics simulations. In essence, the model consists of a many particle system in the presence of a heat bath, where each particle is chained to its two neighbors by a nonlinear quadratic spring force. A numerical method is implemented to propagate the particle dynamics. Following Hardy [7], formulas relating the macroscopic entities to the particle dynamics are employed in order to study the behavior of the stress and heat flux in relation to the mass, momentum and energy. In fact, the numerical result show that the stress appears as a linear function of the energy. / En värdefull lösningsmetod för kontinuumsystem är att lösa det system av partiella differentialekvationer som utgörs av konserveringslagarna för massa, rörelsemängd och energi tillsammans med två konstitutiva relationer för spänning och värmeflöde. För detta krävs det att ekvationerna bildar ett slutet system, dvs. att spänningen och värmeflödet är funktioner av de konserverade storheterna. Detta examensarbete studerar de konstitutiva relationerna för spänningen och värmeflödet i Fermi-Pasta-Ulam-Tsingou modellen med Langevindynamik, som bestäms genom simulering av molekyldynamiken. Modellen består väsentligen av många partiklar som är kopplade till ett värmebad, där varje partikel är länkad till sina två grannar genom en ickelinjär fjäderkraft. En numerisk metod implementeras för att propagera partikeldynamiken. Baserat på Hardys arbete [7] bestäms först spänningen och värmeflödet, sedan studeras deras beroende av konserveringsvariablerna. De numeriska resultaten visar att spänningen är en linjär funktion av energin. Computational Mathematics Beräkningsmatematik
210	An exploration of topological properties of high-frequency one-dimensional financial time series data using TDA / An exploration of topological properties of high-frequency one-dimensional financial time series data using TDA Truong, Patrick January 2017 (has links) Topological data analysis has been shown to provide novel insight in many natural sciences. To our knowledge, the area is however relatively unstudied on financial data. This thesis explores the use of topological data analysis on one dimensional financial time series. Takens embedding theorem is used to transform a one dimensional time series to an $m$-dimensional point cloud, where $m$ is the embedding dimension. The point cloud of the time series represents the states of the dynamical system of the one dimensional time series. To see how the topology of the states differs in different partitions of the time series, sliding window technique is used. The point cloud of the partitions is then reduced to three dimensions by PCA to allow for computationally feasible persistent homology calculation. Synthetic examples are shown to illustrate the process. Lastly, persistence landscapes are used to allow for statistical analysis of the topological features. The topological properties of financial data are compared with quantum noise data to see if the properties differ from noise. Complexity calculations are performed on both datasets to further investigate the differences between high-frequency FX data and noise. The results suggest that high-frequency FX data differs from the quantum noise data and that there might be some property other than mutual information of financial data which topological data analysis uncovers. / Topologisk dataanalys har visat sig kunna ge ny insikt i många naturvetenskapliga discipliner. Till vår kännedom är tillämpningar av metoden på finansiell data relativt ostuderad. Uppsatsen utforskar topologisk dataanalys på en endimensionell finanstidsserie. Takens inbäddningsteorem används för att transformera en endimensionell tidsserie till ett $m$-dimensionellt punktmoln, där $m$ är inbäddningsdimensionen. Tidsseriens punktmoln representerar tillstånd hos det dynamiska systemet som associeras med den endimensionella tidsserien. För att undersöka hur topologiska tillstånd varierar inom tidsserien används fönsterbaserad teknik för att segmentera den endimensionella tidsserien. Segmentens punktmoln reduceras till 3D med PCA för att göra ihållande homologi beräkningsmässigt möjligt. Syntetiska exempel används för att illustrera processen. En jämförelse mellan topologiska egenskaper hos finansiell tidseries och kvantbrus utförs för att se skillnader mellan dessa. Även komplexitetsberäkningar utförs på dessa data set för att vidare utforska skillnaderna mellan kvantbrus och högfrekventa FX-data. Resultatet visar på att högfrekvent FX-data skiljer sig från kvantbrus och att det finns egenskaper förutom gemensam information hos finansiella tidsserier som topologisk dataanalys visar på. Computational Mathematics Beräkningsmatematik

Search results