Video classification is the task of producing a label that is relevant to the video given its frames. Active learning aims to achieve greater accuracy with fewer labeled training instances through a designed query strategy that can select representative instances from the unlabeled training instances and send them to be labeled by an oracle. It is successfully used in many modern machine learning problems. To figure out how different active learning strategies work on the video classification task, we test several active learning strategies including margin sampling, standard deviation sampling, and center sampling on Temporal Segment Networks (TSN, a classic neural network designed for video classification). We profile these three active learning strategies on systematic control experiments and get the respective models, then we compare these models’ confusion matrix, data distribution, and training log with the baseline models after the first round of query. We observe that the comparison results among models are different under different evaluation criteria. Among all the evaluation criteria we use, the average performance of center sampling is better than that of random sampling, while margin sampling and standard deviation sampling get much worse performance than random sampling and center sampling. The training log and data distribution indicate that margin sampling and standard deviation are prone to select outliers inside the data which are hard to learn but apparently not helpful to improve the model performance. Center sampling will easily outperform random sampling by F1-score. Therefore, the evaluation criteria should be formulated according to the actual application requirements. / Videoklassificering är uppgiften att producera en etikett som är relevant för videon uifrån videons bildsekvens. Aktivt lärande syftar till att uppnå större noggrannhet med färre märkta träningsexempel genom en designad frågestrategi för att välja representativa instanser som ska märkas av ett orakel från de omärkta träningsexemplen, och används framgångsrikt i många moderna maskininlärningsproblem. För att ta reda på hur olika aktiva inlärningsstrategier fungerar på videoklassificeringsuppgifter testar vi flera aktiva strategier inklusive marginalsampling, standardavvikelsessampling samt sampling baserat på Temporal Segment Networks (TSN, som är ett klassiskt neuralt nätverk designat för videoklassificeringsuppgift). Vi testar dessa tre aktiva inlärningsstrategier på systematiska kontrollexperiment, sedan jämför vi dessa modellers förvirringsmatris, datamängdsdistribution, träningslogg med baslinjemodellens efter den första frågeomgången. Vi observerar att endast metoden ”urval av centra” överträffar slumpmässigt urval. Metoden med slumpmässiga provtagningar samt metoden med är benägna att välja extremvärden som är svåra att lära sig men tydligen inte till hjälp för att förbättra modellens prestanda.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-317052 |
Date | January 2022 |
Creators | Mao, Jilei |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2022:185 |
Page generated in 0.0019 seconds