Return to search

Classification of explicit music content using lyrics and music metadata / Klassificering av stötande innehåll i musik med hjälp av låttexter och musik-metadata

In a world where online information is growing rapidly, the need for more efficient methods to search for and create music collections is larger than ever. Looking at the most recent trends, the application of machine learning to automate different categorization problems such as genre and mood classification has shown promising results. In this thesis we investigate the problem of classifying explicit music content using machine learning. Different data sets containing lyrics and music metadata, vectorization methods and algorithms including Support Vector Machine, Random Forest, k-Nearest Neighbor and Multinomial Naive Bayes are combined to create 32 different configurations. The configurations are then evaluated using precision-recall curves. The investigation shows that the configuration with the lyric data set together with TF-IDF vectorization and Random Forest as algorithm outperforms all other configurations. / I en värld där online-information växer snabbt, ökar behovet av effektivare metoder för att söka i och skapa musiksamlingar. De senaste trenderna visar att användandet av maskininlärning för att automatisera olika kategoriseringsproblem så som klassificering av genre och humör har gett lovande resultat. I denna rapport undersöker vi problemet att klassificera stötande innehåll i musik med maskininlärning. Genom att kombinera olika datamängder med låttexter och musik-metadata, vektoriseringsmetoder samt algoritmer så som Support Vector Machine, Random Forest, k-Nearest Neighbor och Multinomial Naive Bayes skapas 32 olika konfigurationer som tränas och utvärderas med precision-recall-kurvor. Resultaten visar att konfigurationen med datamängden som endast innehåller låttexter tillsammans med TF-IDF-vektorisering och algoritmen Random Forest presterar bättre än alla andra konfigurationer.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-231461
Date January 2018
CreatorsBergelid, Linn
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2018:338

Page generated in 0.0027 seconds