For music genre classification purposes, the importance of an intelligent and content-based selection of audio samples has been mostly overlooked. One common approach toward representative results is to select samples at predetermined locations. This is done to avoid analysis of the full audio during classification. While methods in music thumbnailing could be used to find representative samples for genre classification, it has not yet been demonstrated. This thesis showed that efficient and genre representative sampling can be performed with a machine learning model (bidirectional RNN with either LSTM or GRU cells). The model was trained using a sub-optimal genre classifier and computationally inexpensive audio features. The genre classifier was used to compute losses for evenly spaced samples in 14000 tracks. The losses were then used as targets during training. Root mean square energy and zero-crossing rate were used as features, computed over relatively large time steps and wide intervals. The proposed framework can be used to give better predictions with trained genre classifiers and most likely also train, or retrain, them for higher classification accuracy at a low computational cost. / Vid musikgenreklassificering har betydelsen av ett intelligent och innehållsbaserat urval allt som oftast förbisetts. En ansats till ett representativt resultat görs vanligtvis genom att ett antal kortare utdrag tas vid förutbestämda tidpunkter. Detta görs för att under en klassificering undvika att analysera hela musikverket. Fastän det existerar metoder inom music thumbnailing för att hitta representativa urval har de ännu inte tillämpats inom genreklassificering. I denna uppsats visades att ett effektivt och genrerepresentativt musikurval kan utföras med en maskininlärningsmodell (dubbelriktad RNN med antingen LSTM- eller GRU-celler). Modellen tränades med hjälp av en suboptimal genreklassificerare och beräkningsmässigt enkla ljudattribut. Genreklassificeraren användes för att beräkna förlusten av jämnt fördelade urval i 14000 musikverk. Förlusterna användes sedan som utdata under träningen. Kvadratiskt energimedelvärde och zero-crossing rate beräknades över relativt långa tidssteg och breda intervall och användes som indata. Det föreslagna ramverket kan till beräkningsmässigt låga kostnader användas för att ge bättre förutsägelser med redan tränade genreklassificerare och sannolikt träna, eller omträna, dessa för högre noggrannhet vid klassificering.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-322599 |
Date | January 2022 |
Creators | Skärbo Jonsson, Adam |
Publisher | KTH, Matematisk statistik |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-SCI-GRU ; 2022:319 |
Page generated in 0.0022 seconds