Spelling suggestions: "subject:"gaussiska processer"" "subject:"gaussisk processer""
1 |
Gaussian Process Regression-based GPS Variance Estimation and Trajectory Forecasting / Regression med Gaussiska Processer för Estimering av GPS Varians och Trajektoriebaserade TidtabellsprognoserKortesalmi, Linus January 2018 (has links)
Spatio-temporal data is a commonly used source of information. Using machine learning to analyse this kind of data can lead to many interesting and useful insights. In this thesis project, a novel public transportation spatio-temporal dataset is explored and analysed. The dataset contains 282 GB of positional events, spanning two weeks of time, from all public transportation vehicles in Östergötland county, Sweden. From the data exploration, three high-level problems are formulated: bus stop detection, GPS variance estimation, and arrival time prediction, also called trajectory forecasting. The bus stop detection problem is briefly discussed and solutions are proposed. Gaussian process regression is an effective method for solving regression problems. The GPS variance estimation problem is solved via the use of a mixture of Gaussian processes. A mixture of Gaussian processes is also used to predict the arrival time for public transportation buses. The arrival time prediction is from one bus stop to the next, not for the whole trajectory. The result from the arrival time prediction is a distribution of arrival times, which can easily be applied to determine the earliest and latest expected arrival to the next bus stop, alongside the most probable arrival time. The naïve arrival time prediction model implemented has a root mean square error of 5 to 19 seconds. In general, the absolute error of the prediction model decreases over time in each respective segment. The results from the GPS variance estimation problem is a model which can compare the variance for different environments along the route on a given trajectory.
|
2 |
Scalable Gaussian Process Regression for Time Series Modelling / Skalerbar Gaussisk process regression för modellering av tidsserierBoopathi, Vidhyarthi January 2019 (has links)
Machine learning algorithms has its applications in almost all areas of our daily lives. This is mainly due to its ability to learn complex patterns and insights from massive datasets. With the increase in the data at a high rate, it is becoming necessary that the algorithms are resource-efficient and scalable. Gaussian processes are one of the efficient techniques in non linear modelling, but has limited practical applications due to its computational complexity. This thesis studies how parallelism techniques can be applied to optimize performance of Gaussian process regression and empirically assesses parallel learning of a sequential GP and a distributed Gaussian Process Regression algorithm with Random Projection approximation implemented in SPARK framework. These techniques were tested on the dataset provided by Volvo Cars. From the experiments, it is shown that training the GP model with 45k records or 219 ≈106 data points takes less than 30 minutes on a spark cluster with 8 nodes. With sufficient computing resources these algorithms can handle arbitrarily large datasets. / Maskininlärningsalgoritmer har sina applikationer inom nästan alla områden i vårt dagliga liv. Detta beror främst på dess förmåga att lära sig komplexa mönster och insikter från massiva datamängder. Med ökningen av data i en hög takt, blir det nödvändigt att algoritmerna är resurseffektiva och skalbara. Gaussiska processer är en av de effektiva teknikerna i icke-linjär modellering, men har begränsade praktiska tillämpningar på grund av dess beräkningskomplexitet. Den här uppsatsen studerar hur parallellismtekniker kan användas för att optimera prestanda för Gaussisk processregression och utvärderar parallellt inlärning av en sekventiell GP och distribuerad Gaussian Process Regression algoritm med Random Projection approximation implementerad i SPARK ramverk. Dessa tekniker testades på en datamängd från Volvo Cars. Från experimenten visas att det krävs mindre än 30 minuter att träna GP-modellen med 45k poster eller 219 ≈106 datapunkter på ett Spark-kluster med 8 noder. Med tillräckliga datoressurser kan dessa algoritmer hantera godtyckligt stora datamängder.
|
3 |
Early-Stage Prediction of Lithium-Ion Battery Cycle Life Using Gaussian Process Regression / Prediktion i tidigt stadium av litiumjonbatteriers livslängd med hjälp av Gaussiska processerWikland, Love January 2020 (has links)
Data-driven prediction of battery health has gained increased attention over the past couple of years, in both academia and industry. Accurate early-stage predictions of battery performance would create new opportunities regarding production and use. Using data from only the first 100 cycles, in a data set of 124 cells where lifetimes span between 150 and 2300 cycles, this work combines parametric linear models with non-parametric Gaussian process regression to achieve cycle lifetime predictions with an overall accuracy of 8.8% mean error. This work presents a relevant contribution to current research as this combination of methods is previously unseen when regressing battery lifetime on a high dimensional feature space. The study and the results presented further show that Gaussian process regression can serve as a valuable contributor in future data-driven implementations of battery health predictions. / Datadriven prediktion av batterihälsa har fått ökad uppmärksamhet under de senaste åren, både inom akademin och industrin. Precisa prediktioner i tidigt stadium av batteriprestanda skulle kunna skapa nya möjligheter för produktion och användning. Genom att använda data från endast de första 100 cyklerna, i en datamängd med 124 celler där livslängden sträcker sig mellan 150 och 2300 cykler, kombinerar denna uppsats parametriska linjära modeller med ickeparametrisk Gaussisk processregression för att uppnå livstidsprediktioner med en genomsnittlig noggrannhet om 8.8% fel. Studien utgör ett relevant bidrag till den aktuella forskningen eftersom den använda kombinationen av metoder inte tidigare utnyttjats för regression av batterilivslängd med ett högdimensionellt variabelrum. Studien och de erhållna resultaten visar att regression med hjälp av Gaussiska processer kan bidra i framtida datadrivna implementeringar av prediktion för batterihälsa.
|
4 |
Constrained Gaussian Process Regression Applied to the Swaption Cube / Regression för gaussiska processer med bivillkor tillämpad på Swaption-kubenDeleplace, Adrien January 2021 (has links)
This document is a Master Thesis report in financial mathematics for KTH. This Master thesis is the product of an internship conducted at Nexialog Consulting, in Paris. This document is about the innovative use of Constrained Gaussian process regression in order to build an arbitrage free swaption cube. The methodology introduced in the document is used on a data set of European Swaptions Out of the Money. / Det här dokumentet är en magisteruppsats i finansiel matematik på KTH. Detta examensarbete är resultatet av en praktik som ufördes på Nexialog Consulting i Paris.Detta dokument handlar om den innovativa användningen av regression för gaussiska processer med bivillkor för att bygga en arbitragefri swaption kub. Den metodik som introduceras i dokumentet används på en datamängd av europeiska swaptions som är "Out of the Money".
|
5 |
Real-Time Continuous Euclidean Distance Fields for Large Indoor EnvironmentsWarberg, Erik January 2023 (has links)
Real-time spatial awareness is essential in areas such as robotics and autonomous navigation. However, as environments expand and become increasingly complex, maintaining both a low computational load and high mapping accuracy remains a significant challenge. This thesis addresses these challenges by proposing a novel method for real-time construction of continuous Euclidean distance fields (EDF) using Gaussian process (GP) regression, hereafter referred to as GP-EDF, tailored specifically for large indoor environments. The proposed approach focuses on leveraging the inherent structural information of indoor spaces by partitioning them into rooms and constructing a local GP-EDF model for each, reducing the computational cost tied to large matrix operations in GPs. By also exploiting the geometric regularities commonly found in indoor spaces it detects walls and represents them as line segments. This information is integrated into the models’ priors to both improve accuracy and further reduce the computational expense. Comparison with two baselines demonstrated the proposed approach’s effectiveness. It maintained low computation times despite increasing amounts of sensor data, signifying a significant improvement in scalability. Results also confirmed that the EDF quality remains high and isn’t affected by partitioning the GP-EDF into local models. The method also reduced the influence of sensor noise on the EDF’s accuracy when incorporating the line segments into the model. Additionally, the proposed room segmentation method proved to be efficient and generated accurately partitioned rooms, with a high degree of independence between them. In conclusion, the proposed approach offers a scalable, accurate and efficient solution for real-time construction of EDFs, demonstrating significant potential in aiding autonomous navigation within large indoor spaces. / Realtidsrumslig medvetenhet är avgörande inom områden som robotik och autonom navigering. Emellertid, när miljöer expanderar och blir alltmer komplexa, kvarstår det en betydande utmaning att bibehålla både en låg beräkningsbelastning och hög kartläggningsnoggrannhet. Denna avhandling bemöter dessa utmaningar genom att föreslå en ny metod för realtidskonstruktion av kontinuerliga euklidiska avståndsfält (EDF) med hjälp av regression via gaussiska processer (GP), hädanefter benämnd GP-EDF, specifikt anpassad för stora inomhusmiljöer. Den föreslagna metoden fokuserar på att utnyttja den inneboende strukturella informationen i inomhusmiljöer genom att dela upp dem i rum och konstruera en lokal GP-EDF-modell för varje rum, vilket minskar den beräkningsbelastning som är kopplad till stora matrisoperationer i GP:er. Genom att även utnyttja de geometriska regelbundenheter som vanligtvis finns i inomhusutrymmen, detekterar den väggar och representerar dem som linjesegment. Denna information integreras sedan i modellernas a priori-fördelningar, både för att förbättra noggrannheten och ytterligare minska den beräkningsmässiga kostnaden. Jämförelse med två baslinjemodeller demonstrerade den föreslagna metodens effektivitet. Den bibehöll låga beräkningstider trots ökande mängder sensordata, vilket indikerar en betydande förbättring av skalbarheten. Resultaten bekräftade även att kvaliteten på EDF:en förblir hög och påverkas inte av uppdelningen av GP-EDF:en i lokala modeller. Metoden minskade även sensorbrusets inverkan på EDF:ens noggrannhet vid integrering av linjesegment i modellen. Dessutom visade sig den föreslagna rumsegmenteringsmetoden vara effektiv och genererade korrekt uppdelade rum, med en hög grad av oberoende mellan dem. Sammanfattningsvis erbjuder den föreslagna metoden en skalbar och effektiv lösning för realtidskonstruktion av EDF:er, och visar på betydande potential att underlätta autonom navigering inom stora inomhusutrymmen.
|
6 |
Machine Learning for Air Flow Characterization : An application of Theory-Guided Data Science for Air Fow characterization in an Industrial Foundry / Maskininlärning för Luftflödeskarakterisering : En applikation för en Teorivägledd Datavetenskapsmodell för Luftflödeskarakterisering i en IndustrimiljöLundström, Robin January 2019 (has links)
In industrial environments, operators are exposed to polluted air which after constant exposure can cause irreversible lethal diseases such as lung cancer. The current air monitoring techniques are carried out sparely in either a single day annually or at few measurement positions for a few days.In this thesis a theory-guided data science (TGDS) model is presented. This hybrid model combines a steady state Computational Fluid Dynamics (CFD) model with a machine learning model. Both the CFD model and the machine learning algorithm was developed in Matlab. The CFD model serves as a basis for the airflow whereas the machine learning model addresses dynamical features in the foundry. Measurements have previously been made at a foundry where five stationary sensors and one mobile robot were used for data acquisition. An Echo State Network was used as a supervised learning technique for airflow predictions at each robot measurement position and Gaussian Processes (GP) were used as a regression technique to form an Echo State Map (ESM). The stationary sensor data were used as input for the echo state network and the difference between the CFD and robot measurements were used as teacher signal which formed a dynamic correction map that was added to the steady state CFD. The proposed model utilizes the high spatio-temporal resolution of the echo state map whilst making use of the physical consistency of the CFD. The initial applications of the novel hybrid model proves that the best qualities of these two models could come together in symbiosis to give enhanced characterizations.The proposed model could have an important role for future characterization of airflow and more research on this and similar topics are encouraged to make sure we properly understand the potential of this novel model. / Industriarbetare utsätts för skadliga luftburna ämnen vilket över tid leder till högre prevalens för lungsjukdomar så som kronisk obstruktiv lungsjukdom, stendammslunga och lungcancer. De nuvarande luftmätningsmetoderna genomförs årligen under korta sessioner och ofta vid få selekterade platser i industrilokalen. I denna masteruppsats presenteras en teorivägledd datavetenskapsmodell (TGDS) som kombinerar en stationär beräkningsströmningsdynamik (CFD) modell med en dynamisk maskininlärningsmodell. Både CFD-modellen och maskininlärningsalgoritmen utvecklades i Matlab. Echo State Network (ESN) användes för att träna maskininlärningsmodellen och Gaussiska Processer (GP) används som regressionsteknik för att kartlägga luftflödet över hela industrilokalen. Att kombinera ESN med GP för att uppskatta luftflöden i stålverk genomfördes första gången 2016 och denna modell benämns Echo State Map (ESM). Nätverket använder data från fem stationära sensorer och tränades på differensen mellan CFD-modellen och mätningar genomfördes med en mobil robot på olika platser i industriområdet. Maskininlärningsmodellen modellerar således de dynamiska effekterna i industrilokalen som den stationära CFD-modellen inte tar hänsyn till. Den presenterade modellen uppvisar lika hög temporal och rumslig upplösning som echo state map medan den också återger fysikalisk konsistens som CFD-modellen. De initiala applikationerna för denna model påvisar att de främsta egenskaperna hos echo state map och CFD används i symbios för att ge förbättrad karakteriseringsförmåga. Den presenterade modellen kan spela en viktig roll för framtida karakterisering av luftflöden i industrilokaler och fler studier är nödvändiga innan full förståelse av denna model uppnås.
|
7 |
Galaxies as Clocks and the Universal Expansion / Galaxer som klockor och universums expansionAhlström Kjerrgren, Anders January 2021 (has links)
The Hubble parameter H(z) is a measure of the expansion rate of the universe at redshift z. One method to determine it relies on inferring the slope of the redshift with respect to cosmic time, where galaxy ages can be used as a proxy for the latter. This method is used by Simon et al. in [1], where they present 8 determinations of the Hubble parameter. The results are surprisingly precise given the precision of their data set. Therefore, we reanalyze their data using three methods: chi-square minimization, Monte Carlo sampling, and Gaussian processes. The first two methods show that obtaining 8 independent values of the Hubble parameter yields significantly larger uncertainties than those presented by Simon et al. The last method yields a continuous inference of H(z) with lower uncertainties. However, this is obtained at the cost of having strong correlations, meaning that inferences at a wide range of redshifts provide essentially the same information. Furthermore, we demonstrate that obtaining 8 independent values for the Hubble parameter with the same precision as in [1] requires either significantly increasing the size of the data set, or significantly decreasing the uncertainty in the data. We conclude that their resulting Hubble parameter values can not be derived from the employed data. [1] J. Simon, L. Verde and R. Jimenez, Constraints on the redshift dependence of the dark energy potential, Physical Review D 71, 123001 (2005). / Hubbleparametern H(z) är ett mått på universums expansionshastighet vid rödskift z. En metod som bestämmer parametern bygger på att hitta lutningen av sambandet mellan rödskift och kosmisk tid, där det sistnämnda går att ersätta med galaxåldrar. Denna metod används av Simon et al. i [1], där de presenterar 8 värden av Hubbleparametern. Resultaten är förvånansvärt precisa, med tanke på precisionen i deras data. Vi omanalyserar därför deras data med tre metoder: chi-2-miniminering, Monte Carlo-sampling och Gaussiska processer. De två första metoderna visar att när 8 oberoende värden av Hubbleparametern bestäms fås mycket större osäkerheter än de som presenteras av Simon et al. Den sistnämnda metoden ger en kontinuerlig funktion H(z) med lägre osäkerheter. Priset för detta är dock starka korrelationer, det vill säga att resultat vid många olika rödskift innehåller i princip samma information. Utöver detta visar vi att det krävs antingen en mycket större mängd data eller mycket mindre osäkerheter i datan för att kunna bestämma 8 oberoende värden av Hubbleparametern med samma precision som i [1]. Vi drar slutsatsen att deras värden av Hubbleparametern inte kan fås med den data som använts. [1] J. Simon, L. Verde and R. Jimenez, Constraints on the redshift dependence of the dark energy potential, Physical Review D 71, 123001 (2005).
|
8 |
Applying Revenue Management to the Last Mile Delivery Industry / Tillämpbarheten av intäktsoptimering på Sista Milen IndustrinFinnman, Peter January 2018 (has links)
The understanding of what motivates a customer to pay more for a product or service has al-ways been a fundamental question in business. To the end of answering this question, revenue management is a business practice that revolves around using analytics to predict consumer behavior and willingness-to-pay. It has been a common practice within the commercial airline and hospitality industries for over 30 years, allowing adopters to reach their service capacity with increased profit margins. In this thesis, we investigated the possibility to apply revenue management to the last mile delivery industry, an industry that provides the service of delivering goods from e-commerce companies to the consumer’s front door. To achieve this objective, a revenue management framework was conceived, detailing the interaction between the customer and a dynamic pricing model. The model itself was a product of a machine learning model, intended to segment the customers and predict the willingness-to-pay of each customer segment. The performance of this model was tested through a quantitative study on synthetic buyers, subject to parameters that influence their willingness-to-pay. It was observed that the model was able to distinguish between different types of customers, yielding a pricing policy that increased profits by 7.5% in comparison to fixed price policies. It was concluded that several factors may impact the customer’s willingness-to-pay within the last mile delivery industry. Amongst these, the convenience that the service provides and the disparity between the price of the product and the price of the service were the most notable. However, the magnitude of considering these parameters was never determined. Finally, em-ploying dynamic pricing has the potential to increase the availability of the service, enabling a wider audience to afford the service. / Vad som motiverar en kund att betala mer för en tjänst eller en produkt har länge varit ett centralt koncept inom affärslivet. Intäktsoptimering är en affärspraxis som strävar efter att besvara den frågan, genom att med analytiska verktyg mäta och förutse betalningsviljan hos kunden. Intäktsoptimering har länge varit framträdande inom flyg- och hotellbranschen, där företag som anammat strategin har möjlighets att öka försäljningsvinsten. I detta examensarbete undersöker vi möjligheten att applicera intäktsoptimering på sista milen industrin, en industri som leverar köpta produkten hem till kunden. För att uppnå detta har vi tagit fram ett ramverk för informationsflöden inom intäktsoptimering som beskriver hur kunder interagerar med en dynamisk prissättningsmodell. Denna prissättningsmodell framställs genom maskininlärning med avsikt att segmentera kundbasen, för att sedan förutse betalningsviljan hos varje kundsegment. Modellens prestanda mättes genom en kvantitativ studie på syntetiska kunder som beskrivs av parametrar som påverkar betalningsviljan. Studien påvisade att modellen kunde skilja på betalningsviljan hos olika kunder och resulterade i en genomsnittlig vinstökning på 7.5% i jämförelse med statiska prissättningsmodeller. Det finns mänga olika faktorer som spelar in på kundens betalningsvilja inom sista milen industrin. Bekvämlighet och skillnader i priset på produkten som levereras och tjänsten att leverera produkten är två anmärkningsvärda faktorer. Hur stor inverkan faktorerna som beskrivs i detta examensarbete, har på betalningsviljan, förblev obesvarat. Slutligen uppmärksammades möjligheten att, med hjälp av dynamisk prissättning, öka tillgängligheten av tjänsten då flera kunder kan ha råd med en prissättning som överväger deras betalningsvilja.
|
9 |
Image Distance Learning for Probabilistic Dose–Volume Histogram and Spatial Dose Prediction in Radiation Therapy Treatment Planning / Bilddistansinlärning för probabilistisk dos–volym-histogram- och dosprediktion inom strålbehandlingEriksson, Ivar January 2020 (has links)
Construction of radiotherapy treatments for cancer is a laborious and time consuming task. At the same time, when presented with a treatment plan, an oncologist can quickly judge whether or not it is suitable. This means that the problem of constructing these treatment plans is well suited for automation. This thesis investigates a novel way of automatic treatment planning. The treatment planning system this pipeline is constructed for provides dose mimicking functionality with probability density functions of dose–volume histograms (DVHs) and spatial dose as inputs. Therefore this will be the output of the pipeline. The input is historically treated patient scans, segmentations and spatial doses. The approach involves three modules which are individually replaceable with little to no impact on the remaining two modules. The modules are: an autoencoder as a feature extractor to concretise important features of a patient segmentation, a distance optimisation step to learn a distance in the previously constructed feature space and, finally, a probabilistic spatial dose estimation module using sparse pseudo-input Gaussian processes trained on voxel features. Although performance evaluation in terms of clinical plan quality was beyond the scope of this thesis, numerical results show that the proposed pipeline is successful in capturing salient features of patient geometry as well as predicting reasonable probability distributions for DVH and spatial dose. Its loosely connected nature also gives hope that some parts of the pipeline can be utilised in future work. / Skapandet av strålbehandlingsplaner för cancer är en tidskrävande uppgift. Samtidigt kan en onkolog snabbt fatta beslut om en given plan är acceptabel eller ej. Detta innebär att uppgiften att skapa strålplaner är väl lämpad för automatisering. Denna uppsats undersöker en ny metod för att automatiskt generera strålbehandlingsplaner. Planeringssystemet denna metod utvecklats för innehåller funktionalitet för dosrekonstruktion som accepterar sannolikhetsfördelningar för dos–volymhistogram (DVH) och dos som input. Därför kommer detta att vara utdatan för den konstruerade metoden. Metoden är uppbyggd av tre beståndsdelar som är individuellt utbytbara med liten eller ingen påverkan på de övriga delarna. Delarna är: ett sätt att konstruera en vektor av kännetecken av en patients segmentering, en distansoptimering för att skapa en distans i den tidigare konstruerade känneteckensrymden, och slutligen en skattning av sannolikhetsfördelningar med Gaussiska processer tränade på voxelkännetecken. Trots att utvärdering av prestandan i termer av klinisk plankvalitet var bortom räckvidden för detta projekt uppnåddes positiva resultat. De estimerade sannolikhetsfördelningarna uppvisar goda karaktärer för både DVHer och doser. Den löst sammankopplade strukturen av metoden gör det dessutom möjligt att delar av projektet kan användas i framtida arbeten.
|
Page generated in 0.0598 seconds