In the field of musical expression, the complex relationship between improvisation and the cognitive processes that underlie creativity presents a fascinating yet challenging puzzle, prompting this thesis to explore the connection between musical improvisation and creative cognition among musicians. Focusing on the development of robust methods for feature extraction and representation, it utilizes unsupervised Machine Learning (ML) techniques to project improvisations from a prime melody into a high-level latent space. The methodology involves iterative analysis employing Variational Autoencoder (VAE) models, initially pre-trained with a larger dataset and fine-tuned with a musical improvisation dataset provided by the Max Plank Institute. Evaluation encompasses Evidence Lower Bound (ELBO) loss metric and dimensionality reduction techniques like Principal Component Analysis (PCA), t-distributed Stochastic Neighbor Embedding (t-SNE), Multidimensional Scaling (MDS), and Uniform Manifold Approximation and Projection (UMAP) to explore latent space representations. The results reveal that experienced musicians exhibit a greater divergence from the prime melody compared to amateurs. Moreover, professionals’ samples demonstrate more refined clustering and nuanced adjustments between improvisations projected in the latent space. / Inom musikaliska uttryck är det komplexa förhållandet mellan improvisation och de kognitiva processer som ligger till grund för kreativitet ett fascinerande men utmanande pussel, vilket föranleder denna avhandling att utforska sambandet mellan musikalisk improvisation och kreativ kognition bland musiker. Avhandlingen fokuserar på utvecklingen av robusta metoder för extraktion och representation av funktioner och använder oövervakade maskininlärningstekniker (ML) för att projicera improvisationer från en huvudmelodi till ett latent utrymme på hög nivå. Metoden innebär iterativ analys med hjälp av VAE-modeller (Variational Autoencoder), som ursprungligen förutbildades med ett större dataset och finjusterades med ett dataset för musikalisk improvisation från Max Plank Institute. Utvärderingen omfattar förlustmåttet Evidence Lower Bound (ELBO) och dimensionalitetsreducerande tekniker som Principal Component Analysis (PCA), t-distributed Stochastic Neighbor Embedding (t-SNE), Multidimensional Scaling (MDS) och Uniform Manifold Approximation and Projection (UMAP) för att utforska latenta rymdrepresentationer. Resultaten visar att erfarna musiker uppvisar en större avvikelse från huvudmelodin jämfört med amatörer. Dessutom visar professionella musiker mer raffinerade kluster och nyanserade justeringar mellan improvisationer som projiceras i den latenta rymden.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-345079 |
Date | January 2024 |
Creators | Jorda i Custal, Cristina |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2024:23 |
Page generated in 0.0024 seconds