With the inception of music streaming and media content delivery platforms, there has been a tremendous increase in the music available on the internet and the metadata associated with it. In this study, we address the problem of violin artist identification, which tries to classify the performing artist based on the learned features. Even though numerous previous works studied the problem in detail and developed features and deep learning models that can be used, an interesting fact was that most studies focused on artist identification in western popular music and less on Indian classical music. For the same reason, there was no standardized dataset for this purpose. Hence, we curated a new dataset consisting of audio recordings from 6 renowned South Indian Carnatic violin artists. In this study, we explore the use of log-Mel-spectrogram feature and the embeddings generated by a pre-learned VGGish network on a Convolutional Neural Network and Convolutional Recurrent Neural Network Model. From the experiments, we observe that the Convolutional Recurrent Neural Network model trained using the log-Mel-spectrogram feature gave the optimal performance with a classification accuracy of 71.70%. / Med starten av plattformar för musikströmning och leverans av mediainnehåll har det skett en enorm ökning av musiken tillgänglig på internet och den metadata som är associerad med den. I denna studie tar vi upp problemet med fiolkonstnärsidentifikation, som försöker klassificera den utövande konstnären utifrån de inlärda dragen. Även om många tidigare verk studerade problemet i detalj och utvecklade funktioner och modeller för djupinlärning som kan användas, var ett intressant faktum att de flesta studier fokuserade på artistidentifiering i västerländsk populärmusik och mindre på indisk klassisk musik. Av samma anledning fanns det ingen standardiserad datauppsättning för detta ändamål. Därför kurerade vi en ny datauppsättning bestående av ljudinspelningar från 6 kända sydindiska karnatiska violinkonstnärer. I den här studien utforskar vi användningen av log-Melspektrogramfunktionen och inbäddningarna som genereras av ett förinlärt VGGishnätverk på ett Convolutional Neural Network och Convolutional Recurrent Neural Network Model. Från experimenten observerar vi att modellen Convolutional Recurrent Neural Network tränad med hjälp av log-Mel-spektrogramfunktionen gav optimal prestanda med en klassificeringsnoggrannhet på 71,70%.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-325528 |
Date | January 2023 |
Creators | Ramlal, Nandakishor |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:39 |
Page generated in 0.0158 seconds