Return to search

Streaming Predictive Analytics on Apache Flink

Data analysis and predictive analytics today are driven by large scale dis- tributed deployments of complex pipelines, guiding data cleaning, model training and evaluation. A wide range of systems and tools provide the basic abstractions for building such complex pipelines for offline data processing, however, there is an increasing demand for providing support for incremental models over unbounded streaming data. In this work, we focus on the prob- lem of modelling such a pipeline framework and providing algorithms that build on top of basic abstractions, fundamental to stream processing. We design a streaming machine learning pipeline as a series of stages such as model building, concept drift detection and continuous evaluation. We build our prototype on Apache Flink, a distributed data processing system with streaming capabilities along with a state-of-the-art implementation of a varia- tion of Vertical Hoeffding Tree (VHT), a distributed decision tree classification algorithm as a proof of concept. Furthermore, we compare our version of VHT with the current state-of- the-art implementations on distributed data processing systems in terms of performance and accuracy. Our experimental results on real-world data sets show significant performance benefits of our pipeline while maintaining low classification error. We believe that this pipeline framework can offer a good baseline for a full-fledged implementation of various streaming algorithms that can work in parallel. / Dataanalys och predictive analytics drivs idag av storskaliga distribuerade distributioner av komplexa pipelines, guiding data cleaning, model training och utvärdering. Ett brett utbud av system och verktyg ger endast grundläggande abstractions (struktur) för att bygga sådana komplexa pipelines för databehandling i off-line läge, men det finns en ökande efterfrågan att tillhandahålla stöd för stegvis modell över unbounded streaming data. I detta arbete fokuserar vi på problemet med modellering som ramverket för pipeline och ger algoritmer som bygger på grundläggande abstraktioner för stream processing. Vi konstruerar en streaming maskininlärnings pipeline som innehåller steg som model building, concept drift detection och kontinuerlig utvärdering. Vi bygger vår prototyp på Apache Flink, ett distribuerat databehandlingssystem med strömnings kapacitet tillsammans med den bästa tillgängliga implementation av en Vertical Hoeffding Tree (VHT) variant och ett distribuerat beslutsträd algoritm som koncepttest. Dessutom jämför vi vår version av VHT med den senaste tekniken inom destributed data processing systems i termer av prestanda och precision. Vårt experimentella resultaten visar betydande fördelarna med vår pipeline och samtidigt bibehållen låg klassificerat felet. Vi anser att detta ramverk kan erbjuda en bra utgångspunkt vid genomförandet av olika streaming algoritmer som kan arbeta parallellt.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-171355
Date January 2015
CreatorsBeligianni, Foteini
PublisherKTH, Skolan för informations- och kommunikationsteknik (ICT)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-ICT-EX ; 2015:188

Page generated in 0.4807 seconds