Return to search

Predicting Patent Data using Wavelet Regression and Bayesian Machine Learning / Modellering av Patentdata med Wavelet Regression och Bayesiansk Maskininlärning

Patents are a fundamental part of scientific and engineering work, ensuringprotection of inventions owned by individuals or organizations. Patents areusually made public 18 months after being filed to a patent office, whichmeans that current publicly available patent data only provides informationabout the past. Regression models applied on discrete time series can be usedas a prediction tool to counteract this, building a 18 month long bridge intothe future and beyond. While linear models are popular for their simplicity,Bayesian networks have statistical properties that can produce high forecastingquality. Improvements is also made by using signal processing as patentdata is naturally stochastic. This thesis implements wavelet-based signalprocessing and P CA to increase stability and reduce overfitting. A multiplelinear regression model and a Bayesian network model is then designed andapplied to the transformed data. When evaluated on each data set, the Bayesianmodel both performs better and exhibits greater stability and consistency inits predictions. As expected, the linear model is both smaller and faster toevaluate and train. Despite an increase in complexity and slower evaluationtimes, the Bayesian model is conclusively superior to the linear model. Futurework should focus on the signal processing method and additional layers inthe Bayesian network. / Patent är en grundläggande byggsten av den tekniska världen då de skyddaruppfinningar som ägs av individer eller organisationer. Patent publicerasvanligtvis 18 månader efter att de lämnats in till ett patentverk, vilket innebäratt patentdata som är tillgänglig idag endast ger information om det förflutna.Regressionsmodeller som förutspår diskreta tidsserier kan användas somett verktyg för att motverka detta. Då linjära modeller är populära för sinenkelhet, har Bayesianska nätverk statistiska egenskaper som kan produceramodeller med hög kvalité. Patentdata är naturligt kaotisk och måste bearbetasinnan en modell använder den. Denna uppsats implementerar wavelet-baseradsignalbehandling och P CA som förbättrar stabilitet och kvalité. En linjärregressionsmodell och en Bayesiansk nätverksmodell designas och applicerassedan på transformerad data. I varje enskilt fall presterar den Bayesianskamodellen bättre med stabila och konsekventa förutsägelser. Som förväntatär den linjära modellen snabbare att både använda och träna. Trots en ökadkomplexitet och långsammare evaluering är den Bayesianska modellen ettsjälvklart val över den linjära modellen. Framtida förbättringar bör fokuserapå behandling av indata och komplexiteten i det Bayesianska nätverket.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-335330
Date January 2023
CreatorsMartinsen, Mattias
PublisherKTH, Matematik (Avd.)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-SCI-GRU ; 2023:299

Page generated in 0.0028 seconds