This work implements a prototype of a music practice tool, and evaluates alignment methods in an audio matching scenario required for it. By two interviews with piano teachers, we investigated the user demands towards a music performance practice tool that incorporates an alignment technique between a shorter practice segment and a reference performance, from a jazz and classical music point of view. Regarding technical aspects, we studied how Deep Learning (DL) based signal representations compare to standard manually tailored features in the alignment task. Experiments were conducted using a well-known alignment algorithm on a piano dataset. The dataset had manually annotated beat positions which was used for evaluation. We found the traditional features to be superior compared with the DL based signal representations when used independently. We also found that the DL based signal representations, on their own, were insufficient for our test cases. However we found that the DL representations contained valuable information. Multiple test cases demonstrated that the combination of DL representations and traditional representations outperformed all other considered approaches. We also did experiments using deadpan midi renditions as references instead of actual performances, in which we got slight, but insignificant improvement in alignment performance. Finally, the prototype was implemented as a website, using a traditional signal representation as input to the alignment algorithm. / Detta arbete implementerar en prototyp av ett musikövningsverktyg och utvärderar ljudjusteringssmetoder som krävs för det. Användarkraven för verktyget undersöktes genom två intervjuer med pianolärare och fokuserade på ljudmatchning mellan en kort övningsinspelning och en referensinspelning, fokuserat på jazz och klassisk musik. De tekniska aspekterna inkluderade en jämförelse mellan djupinlärningsbaserade signalrepresentationer och traditionella manuellt anpassade funktioner i ljudmatchningsuppgiften. Experiment utfördes på ett pianodataset med en välkänd ljudjusterings algoritm, anpassad för ljudmatchning. Datasetet hade manuellt annoterade taktpositioner som användes för utvärdering. Vi fann att de traditionella funktionerna var överlägsna jämfört med djupinlärningsbaserade signalrepresentationer när de användes ensamma. Vi fann också att djupinlärningsbaserade-baserade signalrepresentationer, ensamma, var otillräckliga för våra testfall. Dock upptäckte vi att de djupinlärningsbaserade representationerna innehöll värdefull information. Flera testfall visade att kombinationen av djupinlärnings-representationer och traditionella representationer överträffade alla andra övervägda metoder. Test med midi-renderade inspelningar som referenser visade en svag, men insignifikant förbättring i prestanda. Slutligen implementerades en prototyp av övningsverktyget som en webbplats, med en traditionell signalrepresentation som inmatning till matchningsalgoritmen.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-346920 |
Date | January 2024 |
Creators | Ferm, Oliwer |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2024:75 |
Page generated in 0.0024 seconds