Return to search

Re-synthesis of instrumental sounds with Machine Learning and a Frequency Modulation synthesizer

Frequency Modulation (FM) based re-synthesis to find the parameter values which best make a FM-synthesizer produce an output sound as similar as possible to a given target sound is a challenging problem. The search space of a commercial synthesizer is often non-linear and high dimensional. Moreover, some crucial decisions need to be done such as choosing the number of modulating oscillators or the algorithm by which they modulate each other. In this work we propose to use Machine Learning (ML) to learn a mapping from target sound to the parameter space of an FM-synthesizer. In order to investigate the capabilities of ML to implicitly learn to make the mentioned key desicions in FM, we design and compare two approaches: first a concurrent approach where all parameter values are compared at once by one model, and second a sequential approach where the prediction is done by a mix of classifiers and regressors. We evaluate the performance of the approaches with respect to ability to reproduce instrumental sound samples from a dataset of 2255 samples from over 700 instrument in three different pitches with respect to four different distance metrics, . The results indicate that both approaches have similar performance at predicting parameters which reconstruct the frequency magnitude spectrum and envelope of a target sound. However the results also point at the sequential model being better at predicting the parameters which reconstruct the temporal evolution of the frequency magnitude spectrums. It is concluded that despite the sequential model outperforming the concurrent, it is likely possible for a model to make key decisions implicitly, without explicitly designed subproblems. / Denna masteruppsats undersöker återskapandet av instrumentala ljud genom användandet av maskininlärning och en synthesizer för frekvensmodulering (FM). Genom att använda maskininlärning kan rätt parametervärden för synthesizern förutspås, sådant att synthesizern skapar ett ljud som är så likt ett givet målljud som möjligt. Uppgiften görs svår då parametrarna för en FMsynthesizer är många och påverkar ljudet olinjärt, vilket skapar ett stort och komplext sökområde.I tidigare forskning har Genetiska Algorithmer använts frekvent för denna process. Det har förekommit olika meningar gällande huruvida det är nödvändigt att explicit dela upp prediktionsprocessen i subproblem, eller om det är bättre att låta förutspå alla parametrar samtidigt utan att explicit införa mänsklig expertis kring problemet. I denna uppsats jämförs därför två olika ansatser: en konkurrent där alla parametrar föruspås på samma gång, och en sekventiell där processen brytits ner till subproblem. De två ansatserna jämförs med avseende på deras förmåga att förutspå parametervärden som återskapar instrumentala ljud så väl som möjligt.Resultaten visar att den sekventiella ansatsen presterar bättre och skapar mer liknande ljud. Dock visas att de båda ansatserna har samma förmåga att återskapa frekvensspektrum. Alltså kan slutsatsen dras att det är möjligt att träna modeller som implicit tar beslut kring val av FM-parametrar lika bra som modeller som tar beslut baserat på explicit nedbrutna subproblem.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-254680
Date January 2019
CreatorsClaesson, Philip
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2019:474

Page generated in 0.0802 seconds