Return to search

Expressive Automatic Music Transcription : Using hard onset detection to transcribe legato slurs for violin / Expressiv Automatisk Musiktranskription : Användning av hård ansatsdetektion för transkription av legatobågar för violin

Automatic Music Transcriptions systems such as ScoreCloud aims to convert audio signals to sheet music. The information contained in sheet music can be divided into increasingly descriptive layers, where most research on Automatic Music Transcription is restricted on note-level transcription and disregard expressive markings such as legato slurs. In case of violin playing, legato can be determined from the articulated, "hard" onsets that occur on the first note of a legato slur. We detect hard onsets in violin recordings by three different methods — two based on signal processing and one on Convolutional Neural Networks. ScoreCloud notes are then labeled as articulated or slurred, depending on the distance to the closest hard onset. Finally, we construct legato slurs between articulated notes, and count the number of notes where the detected slur label matches ground-truth. Our best-performing method correctly labels notes in 82.9% of the cases, when averaging on the test set recordings. The designed system serves as a proof-of-concept for including expressive notation within Automatic Music Transcription. Vibrato was seen to have a major negative impact on the performance, while the method is less affected by varying sound quality and polyphony. Our system could be further improved by using phase input, data augmentation, or high-dimensional articulation representations. / System för automatisk musiktranskription såsom ScoreCloud syftar till att konvertera ljudsignaler till notskrift. Informationen i en notbild kan delas in i flera lager med en ökande nivå av beskrivning, där huvuddelen av forskningen har begränsats till transkription av noter och har bortsett från uttrycksmarkeringar såsom legatobågar. I fallet med violin kan legato bestämmas från de artikulerade, ’hårda’ ansatser som uppkommer vid den första noten i en legatobåge. Vi detekterar här hårda ansatser i inspelningar av violin genom tre olika metoder — två baserade på signalbehandling och en baserat på faltningsnätverk. Noter från ScoreCloud märks sedan som artikulerade eller bundna, beroende på det närmaste avståndet till en hård ansats. Slutligen konstrueras legatobågar mellan artikulerade noter, och vi räknar antalet noter där den predicerade märkningen stämmer med den sanna. Vår bäst presterande metod gör en korrekt märkning i 82.9% i genomsnitt taget över testinspelningarna. Vårt system validerar idén att innefatta uttrycksmarkeringar i automatisk musiktranskription. Vibrato observerades påverka resultatet mycket negativt, medan metoden är mindre påverkad av varierande ljudkvalitet och polyfoni. Vårt system kan förbättras ytterligare genom användandet av fas i indata, datautvidgning och högdimensionella representationer av artikulation.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-321466
Date January 2022
CreatorsFalk, Simon
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2022:710

Page generated in 0.0028 seconds