Global ETD Search

Return to search

Unsupervised Learning of Visual Features for Fashion Classification

Deep Learning has changed the way computer vision tasks are being solved in the current age. Deep Learning approaches have achieved state-of-the-art results in computer vision problems like image classification, image verification, object detection, and image segmentation. However, most of this success has been achieved by training deep neural networks on labelled datasets. While this way of training the neural networks results in classifiers with better accuracies, but it might not be the most efficient way to solve computer vision problems. This is so because it is a resource consuming process to manually label the images/data-points and can cost a lot of time and money to the organizations that employ deep learning for developing various products and services.Fashion and e-commerce is one such domain where there is a need to leverage the image data without relying too much on labels. This process can be beneficial to automatically label the category, attributes and other metadata of images, generally used to show the inventory digitally, without relying on humans to manually annotate them.The aim of this master thesis is to explore the effectiveness of unsupervised deep learning approaches for fashion classification so that the data can be classified by only relying on a few labelled data points. Two unsupervised approaches, one based on clustering of features called DeepCluster and the other based on rotation as a self-supervision task, are compared to a fully supervised model on DeepFashion dataset.Through empirical experiments, it has been shown that these unsupervised deep learning techniques can be used to attain comparable classification accuracies (~1-4 % lesser than that achieved by a fully supervised model) and thus making them as suitable alternatives to supervised approaches. / Deep Learning har förändrat hur datorvisionsuppgifter löses under nuvarande ålder. Deep Learning-metoder har uppnått toppmoderna resultat i datorvisionsproblem som bildklassificering, bildverifiering, objektdetektering och bildsegmentering. Emellertid har det mesta av denna framgång uppnåtts genom att träna djupa neurala nätverk på märkta dataset. Medan detta sätt att träna de neurala nätverken resulterar i klassificerare med bättre noggrannhet, men det kanske inte är det mest effektiva sättet att lösa problem med datorens syn. Det här beror på att det är en resurskrävande process för att manuellt märka bilderna / datapunkterna och kan kosta mycket tid och pengar till organisationer som använder djupt lärande för att utveckla olika produkter och tjänster.Mode och e-handel är en sådan domän där det finns behov av att utnyttja bilddata utan att förlita sig för mycket på etiketter. Denna process kan vara till nytta för att automatiskt märka kategorin, attribut och andra metadata för bilder, vanligtvis används för att visa inventeringen digitalt, utan att förlita sig på människor för att manuellt annotera dem.Syftet med denna magisteruppsats är att undersöka effektiviteten av oövervakade djupt lärande tillvägagångssätt för modeklassificering så att data kan klassificeras genom att endast förlita sig på några märkta datapunkter. Två oövervakade tillvägagångssätt, en baserad på kluster av funktioner som kallas DeepCluster och den andra baserat på rotation som självövervakningsuppgift, jämförs med en helt övervakad modell på DeepFashion dataset.Genom empiriska experiment har det visat sig att dessa oövervakade djupa inlärningstekniker kan användas för att uppnå jämförbara klassifikationsnoggrannigheter (~1-4 % mindre än det som uppnås genom en helt övervakad modell) och därigenom göra dem till lämpliga alternativ för övervakade tillvägagångssätt.

http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-254673

Computer and Information Sciences

Data- och informationsvetenskap

Identifer	oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-254673
Date	January 2019
Creators	Dhariwal, Sumeet
Publisher	KTH, Skolan för elektroteknik och datavetenskap (EECS)
Source Sets	DiVA Archive at Upsalla University
Language	English
Detected Language	Swedish
Type	Student thesis, info:eu-repo/semantics/bachelorThesis, text
Format	application/pdf
Rights	info:eu-repo/semantics/openAccess
Relation	TRITA-EECS-EX ; 2019:473

Page generated in 0.0023 seconds

Unsupervised Learning of Visual Features for Fashion Classification

Description

Links & Downloads

Tags

Additional Fields