Return to search

Efficient Music Thumbnailing for Genre Classification / Effektiv urvalsteknik för musikgenreklassificering

For music genre classification purposes, the importance of an intelligent and content-based selection of audio samples has been mostly overlooked. One common approach toward representative results is to select samples at predetermined locations. This is done to avoid analysis of the full audio during classification. While methods in music thumbnailing could be used to find representative samples for genre classification, it has not yet been demonstrated. This thesis showed that efficient and genre representative sampling can be performed with a machine learning model (bidirectional RNN with either LSTM or GRU cells). The model was trained using a sub-optimal genre classifier and computationally inexpensive audio features. The genre classifier was used to compute losses for evenly spaced samples in 14000 tracks. The losses were then used as targets during training. Root mean square energy and zero-crossing rate were used as features, computed over relatively large time steps and wide intervals. The proposed framework can be used to give better predictions with trained genre classifiers and most likely also train, or retrain, them for higher classification accuracy at a low computational cost. / Vid musikgenreklassificering har betydelsen av ett intelligent och innehållsbaserat urval allt som oftast förbisetts. En ansats till ett representativt resultat görs vanligtvis genom att ett antal kortare utdrag tas vid förutbestämda tidpunkter. Detta görs för att under en klassificering undvika att analysera hela musikverket. Fastän det existerar metoder inom music thumbnailing för att hitta representativa urval har de ännu inte tillämpats inom genreklassificering. I denna uppsats visades att ett effektivt och genrerepresentativt musikurval kan utföras med en maskininlärningsmodell (dubbelriktad RNN med antingen LSTM- eller GRU-celler). Modellen tränades med hjälp av en suboptimal genreklassificerare och beräkningsmässigt enkla ljudattribut. Genreklassificeraren användes för att beräkna förlusten av jämnt fördelade urval i 14000 musikverk. Förlusterna användes sedan som utdata under träningen. Kvadratiskt energimedelvärde och zero-crossing rate beräknades över relativt långa tidssteg och breda intervall och användes som indata. Det föreslagna ramverket kan till beräkningsmässigt låga kostnader användas för att ge bättre förutsägelser med redan tränade genreklassificerare och sannolikt träna, eller omträna, dessa för högre noggrannhet vid klassificering.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-322599
Date January 2022
CreatorsSkärbo Jonsson, Adam
PublisherKTH, Matematisk statistik
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-SCI-GRU ; 2022:319

Page generated in 0.0022 seconds