Return to search

Unsupervised Feature Extraction of Clothing Using Deep Convolutional Variational Autoencoders / Oövervakad extrahering av kännetecknande drag av kläder genom djupa självkodande neurala faltningsnätverk

As online retail continues to grow, large amounts of valuable data, such as transaction and search history, and, specifically for fashion retail, similarly structured images of clothing, is generated. By using unsupervised learning, it is possible to tap into this almost unlimited supply of data. This thesis set out to determine to what extent generative models – in particular, deep convolutional variational autoencoders – can be used to automatically extract representative features from images of clothing in a completely unsupervised manner. In reviewing variations of the autoencoder, both in terms of reconstruction quality and the ability to generate new realistic samples, results suggest that there exists an optimal size of the latent vector in relation to the image data complexity. Furthermore, by weighting the latent loss and generation loss in the loss function, it was possible to disentangle the learned features such that each feature captured a unique defining characteristic of clothing items (here t-shirts and tops). / I takt med att E-handeln fortsätter att växa och kunderna i ökad utsträckning rör sig online, genereras stora mängder värdefull data, exempelvis transaktions- och sökhistorik, och specifikt för klädeshandeln, välstrukturerade bilder av kläder. Genom att använda oövervakad maskininlärning (unsupervised machine learning) är det möjligt att utnyttja denna, nästan obegränsade mängd data. Detta arbete syftar till att utreda i vilken utsträckning generativa modeller, särskilt djupa självkodande neurala faltningsnätverk (deep convolutional variational autoencoders), kan användas för att automatiskt extrahera definierande drag från bilder av kläder. Genom att granska olika varianter av självkodaren framträder en optimal relation mellan storleken på den latenta vektorn och komplexiteten på den bilddata som nätverket tränades på. Vidare noterades att dragen kan fördeladas unikt på variablerna, i detta fall t-shirts och toppar, genom att vikta den latenta förlustfunktionen.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-231811
Date January 2018
CreatorsBlom, Fredrik
PublisherKTH, Robotik, perception och lärande, RPL
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2018:378

Page generated in 0.0018 seconds