Return to search

Machine Learning for Sparse Time-Series Classification - An Application in Smart Metering / Maskininlärningsmetoder för klassificering av glesa tidsserier medtillämpning på smarta mätare

Smart Meters are measuring devices collecting labeled time series data of utility consumptions from sub-meters and are capable of automatically transmit-ting this between the customer and utility companies together with other companies that offer services such as monitoring of consumption and cleaning of data. The smart meters are in some cases experiencing communication errors. One such error occurs when the information about what the utility sub-meters are measuring is lost. This information is important for when the producers of the utility are billing the customers for their usage. The information has had to be collected manually, something which is inefficient in terms of time and money. In this thesis a method for classifying the meters based on their raw time series data is investigated. The data used in the thesis comes from Metry AB and contains thousands of time series in five different classes. The task is complicated by the fact that the data has a high class imbalance, contains many missing values and that the time series vary substantially in length. The proposed method is based on partitioning the time series into slices of equal size and training a Deep Neural Network (DNN) together with a Bayesian Neural Network (BNN) to classify the slices. Prediction on new time series is performed by the prediction of individual slices for that time series followed by a voting procedure. The method is justified through a set of assumptions about the underlying stochastic process generating the time series coupled with an analysis based on the multinomial distribution. The results indicate that the models tend to perform worse on the samples coming from the classes ”water” and ”hot water” and that the worst performance is on the ”hot water”-class. On all the classes the models achieve accuracies of around 60%, by excluding the ”hot water” class it is possible to achieve accuracies of at least 70% on the data set. The models perform worse on time series that contain a few number of good quality slices, by considering only time series which has many good quality slices, accuracies of 70% are achieved for all classes and above 80% when excluding ”Hot Water”. It is concluded that in order to further improve the classification performance, more data is needed. Drawbacks with the method are the increased number of hyper-parameters involved in the extraction of slices. However, the voting method seems promising enough to investigate further on more highly sparse data sets. / Smarta Mätare är maskiner kapabla att automatiskt sända data från sub-mätare mätandes förbrukningar av nyttigheter(utility) mellan kunden och företag som producerar nyttigheterna. Detta har inneburit att en marknad har öppnats upp för företag som tar förbrukningsdata och erbjuder tjänster så som appar där kunden kan se sin förbrukning samt rensning eller interpolering av data. Denna kommunikation har inneburit vissa problem, ett identifierat sådant är att det händer att information om vilken nyttighet som har mätts går förlorat. Denna information är viktig och har tidigare behövt hämtas manuellt på ett eller annat sätt, något som är ineffektivt. I detta examensarbete undersöks huruvida den informationen går att få tag på med enbart rådatan och klassificeringsalgoritmer. Datan kommer från Metry AB och innehåller tusentals tidsserier från fem olika klasser. Uppgiften försvåras av att datan uppvisar en stor obalans i klasserna, innehåller många saknade datapunkter och att tidsserierna varierar stort i längd. Metoden som föreslås baseras på en uppstyckning av tidsserierna i så kallade ”slices” av samma storlek och att träna Djupa Neurala Nätverk (DNN) och Bayesiska Neurala Nätverk (BNN) på dessa. Klassificering av nya tidsserier sker genom att låta modellerna rösta på slices från dem och välja den klass som får flest röster. Arbetet innehåller en teoretisk analys av röstningsprocessen baserat på en multinomial fördelning kombinerat med olika antaganden om processen som genererar dessa slices, denna syftar till att motivera valet av metod. Resultaten visar att modellerna kan tränas och korrekt klassificera mätarna till en viss grad samt att röstningsprocessen tenderar till att ge bättre resultat än att bara använda en slice per mätare. Det påvisas att prestandan är mycket sämre för en specifik klass, genom att exkludera den klassen så lyckas modellerna prestera slutgiltiga noggrannheter på mellan 70 − 80%. Det påvisas vissa skillnader mellan BNN modellen och DNN modellen i termer av noggrannhet, dock så är skillnaderna för små för att det ska gå att dra några generella slutsatser om vilken klassificeringsalgoritm som är bäst. Slutsatserna är att metoden verkar fungera rimligt väl på denna typ av data men att det behövs mer arbete för att förstå när den fungerar och hur man kan göra den bättre, detta är framtida arbete. Den största möjligheten till förbättring för just denna tillämpning identifieras vara att samla in mer data.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-243925
Date January 2019
CreatorsRidnert, Carl
PublisherKTH, Matematisk statistik
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-SCI-GRU ; 2019:019

Page generated in 0.002 seconds