Video thumbnails are essential to represent the content and summary of a video. This thesis proposed a thumbnail extraction approach for fashion videos based on the presence of clothing items, sharpness, and contrast. Furthermore, this thesis investigated how the proposed thumbnail selection method performed concerning user engagement. Other research has been done on user engagement; however, the impact of clothing item presence has yet to be investigated. Firstly, a YOLOv7 model was trained on a fashion dataset to identify clothing items. The proposed selection method used the model to extract labels to determine what frames contain the maximum number of clothing items. The selected frames were filtered based on a contrast threshold, and the sharpest frame was kept as the proposed thumbnail from the remaining frames. The contrast was measured by calculating the standard deviation of the pixels in each frame. The sharpness was measured with the Laplacian operator. The user engagement was investigated by surveying 119 participants on thumbnail preference. The participants were presented with three frames, the thumbnail extracted with the proposed method, and two control frames: the middle frame of the video and a frame where the YOLOv7 model had only identified one object. The results show that the proposed thumbnail selection method performs well, receiving 59.75% of the total votes, compared to a middle frame and a single-item frame that received 17.46% and 22.79% of the votes, respectively. The results indicate that the proposed parameters for the thumbnail extraction could lead to higher user engagement. / Video-miniatyrbilder är en essentiell del av att presentera och sammanfatta videoinnehåll. Den här uppsatsen föreslår en miniatyrbilds extraktionsmetod för modevideos baserat på klädesplagg, skärpa och kontrast. Denna uppsats utvärderade hur den föreslagna metoden presterar i relation till användarengagemang. Tidigare forskning har utvärderat användarengagemang på miniatyrbilder, dock inte kopplat till närvaro av klädesplagg. Först tränades en YOLOv7 modell på ett modedataset för att identifiera klädesplagg. Den föreslagna metoden använde modellen för att extrahera etiketter för att fastställa vilka bilder som inkluderade flest klädesplagg. De utvalda bilderna filtrerades med en kontrast-tröskel, och den skarpaste bilden av de resterande bilderna behölls som en föreslagen miniatyrbild. Kontrasten mättes med standardavvikelsen mellan pixlar i varje bild. Skärpan mättes med Laplaceoperatorn. Användarengagemanget undersöktes med en enkät genomförd av 119 deltagare för att identifiera vilken miniatyrbild som föredrogs. Deltagarna blev presenterade med tre bilder, en extraherad med den föreslagna metoden och två kontrollbilder: mittenbilden från videon och en bild där YOLOv7 modellen endast identifierat ett objekt. Resultaten visar att den föreslagna metoden presterar bra, den fick 59,75% av rösterna, jämfört med mittenbilden och bilden med ett objekt, som fick respektive 17.46% och 22.79%. Resultaten indikerar att den föreslagna parametrarna kan bidra till ökat användarengagamang i modefilmer.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-329593 |
Date | January 2023 |
Creators | Redtzer, Isabel |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:350 |
Page generated in 0.3432 seconds