This work uses a Deep Learning architecture, specifically a state-of-the-art Temporal Convolutional Network, to track the beat and downbeat positions in jazz-ensemble recordings to derive their metrical grid. This network architecture has been used successfully for general beat tracking purposes. However, the jazz genre presents difficulties for this Music Information Retrieval sub-task due to its inherent complexity, and there is a lack of dedicated sets for evaluating a model’s beat tracking performance for different playstyles of this specific music genre. We present a methodology in which we trained a PyTorch implementation of the original architecture with a recalculated binary cross-entropy loss that helps boost the model’s performance compared to a standard trained version. In addition, we retrained these two models using source-separated drums and bass tracks from jazz recordings to improve performance. We further improved the model’s performance by calibrating rhythm parameters using a priori knowledge that narrows the model’s prediction range. Finally, we proposed a novel jazz dataset comprised of recordings from the same jazz piece played with different styles and used this to evaluate the performance of this methodology. We also evaluate a novel sample with tempo variations to demonstrate the architecture’s versatility. This methodology, or parts of it, can be exported to other research work and music information tools that perform beat tracking or other similar Music Information Retrieval sub-tasks. / Vi använde en Deep Learning-arkitektur för att spåra beat- och downbeatpositionerna i jazz-ensembleinspelningar för att härleda deras metriska rutnät. Denna nätverksarkitektur har använts framgångsrikt för allmän taktspårning. Men jazzgenren uppvisar svårigheter för denna deluppgift för återhämtning av musikinformation på grund av dess inneboende komplexitet, och det finns en brist på dedikerade datauppsättningar för att utvärdera en modells prestanda för olika spelstilar av denna specifika musikgenre. Vi presenterar en metod där vi tränade modellen med en omräknad binär korsentropiförlust som hjälper till att öka modellens prestanda jämfört med en utbildad standardversion. Dessutom tränade vi om dessa två modeller med hjälp av källseparerade spår från jazzinspelningar för att förbättra resultaten. Vi förbättrade modellens prestanda ytterligare genom att kalibrera parametrar med hjälp av a priori kunskap. Slutligen föreslog vi en ny jazzdatauppsättning bestående av inspelningar från samma jazzstycke som spelades med olika stilar och använde detta för att utvärdera hur denna metod fungerar. Vi utvärderar också ett nytt prov med tempovariationer för att visa arkitekturens mångsidighet. Denna metodik, eller delar av den, kan exporteras till andra forskningsarbeten och musikinformationsverktyg som utför beat tracking eller andra liknande Music Information Retrieval underuppgifter.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-337936 |
Date | January 2023 |
Creators | Alonso Toledo Carrera, Andres |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:641 |
Page generated in 0.0125 seconds