Return to search

Creation of a Time-Series Data Cleaning Toolbox

A significant drawback of currently used data cleaning methods includes a reliance on domain knowledge or a background in data science, and with the vast number of possible solutions to this problem, the step of data cleaning may be entirely foregone when developing a machine learning (ML) model. Since skipping this stage altogether results in a lower performance for ML models, a general-purpose time-series data cleaning user interface (UI) was developed in Python [1], with a target user base of people unfamiliar with data cleaning. Following the development, the UI was tested on time-series datasets available in online repositories, and a comparison between the estimation performance between ML models trained on original datasets and datasets cleaned through the UI was carried out. This comparison showed that the use of the UI can result in significant improvements to the performance of ML models; however, the degree of said improvement is highly dataset dependent. / En betydande nackdel med de närvarande metoderna som används för datarensning är att lita på domänkunskap eller en bakgrund inom datavetenskap. Med det stora antalet möjliga lösningar på detta problem kan datarensning steget helt utelämnas när en maskininlärningsmodell (ML) utvecklas. Eftersom att hoppa över det här steget resulterar i en lägre prestanda för ML-modeller, utvecklades ett allmänt användargränssnitt för datarensning av tidsserier (UI) i Python [1] som kan bli använda av personer som inte är bekanta med datarensning. Användargränssnittet testades på tidsseriedatauppsättningar som finns tillgängliga i onlinearkiv, och en jämförelse av uppskattningsprestanda mellan ML-modeller som tränats på ursprungliga datauppsättningar och datauppsättningar som rensats via användargränssnittet genomfördes. Denna jämförelse visade att användningen av användargränssnittet kan resultera i betydande förbättringar av ML-modellernas prestanda men förbättringsgraden är datamängdsberoende.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-348722
Date January 2024
CreatorsKovács, Márton
PublisherKTH, Produktionsutveckling
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-ITM-EX ; 2024:406

Page generated in 0.0021 seconds