Using automatic methods to assign incoming tracks and albums from multiple sources to artists entities in a digital rights management company, where no universal artist identifier is available and artist names can be ambiguous, is a challenging problem. In this work we propose to use stacked generalization to combine the predictions of heterogeneous classifiers for an improved quality of artist content matching on two datasets from a digital rights management company. We compare the performance of using a nonlinear meta-level learner to a linear meta-level learner for the stacked generalization on the two datasets, as well as on eight additional datasets to see how well our results general- ize. We conduct experiments and evaluate how the different meta-level learners perform, using the base learners’ class probabilities or a combination of the base learners’ class probabilities and original input features as meta-features. Our results indicate that stacking with a non-linear meta-level learner can improve predictions on the artist chooser problem. Furthermore, our results indicate that when using a linear meta-level learner for stacked generalization, using the base learners’ class probabilities as metafeatures works best, while using a combination of the base learners’ class probabilities and the original input features as meta-features works best when using a non-linear metalevel learner. Among all the evaluated stacking approaches, stacking with a non-linear meta-level learner, using a combination of the base learners’ class probabilities and the original input features as meta-features, performs the best in our experiments over the ten evaluation datasets. / Att använda automatiska metoder för att tilldela spår och album från olika källor till artister i en digital underhållningstjänst är problematiskt då det inte finns några universellt använda identifierare för artister och namn på artister kan vara tvetydiga. I det här verket föreslår vi en användning av staplad generalisering för att kombinera förutsägningar från heterogena klassificerare för förbättra artistmatchningen i två datamäng från en digital underhållningstjänst. Vi jämför prestandan mellan en linjär och en icke-linjär metainlärningsmetod för den staplade generaliseringen av de två datamängder, samt även åtta ytterligare datamäng för att se hur resultaten kan generaliseras. Vi utför experiment och utvärderar hur de olika metainlärningsmetoderna presterar genom att använda basinlärningsmetodens klassannolikheter eller en kombination av basinlärningsmetodens klassannolikheter och den ursprungliga representationen som metarepresentation. Våra resultat indikerar att staplandet med en icke-linjär metainlärningsmetod kan förbättra förutsägningarna i problemet med att tilldela artister. Vidare indikerar våra resultat att när man använder en linjär metainlärningsmetod för en staplad generalisering är det bäst att använda basinlärningsmetodens klassannolikheter som metarepresentation, medan när man använder en icke-linjär metainlärningsmetod för en staplade generaliseringen är det bäst att använda en kombination av basinlärningsmetodens klassannolikheter och den ursprungliga representationen som metarepresentation. Av alla utvärderade sätt att stapla är staplandet med en icke-linjär metainlärningsmetod med en kombination av basinlärningsmetodens klassannolikheter och den ursprungliga representationen som metarepresentation den ansats som presterar bäst i våra experiment över de tio datamängderna.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-232087 |
Date | January 2018 |
Creators | Magnússon, Fannar |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2018:273 |
Page generated in 0.0023 seconds