Return to search

Automated Intro Detection ForTV Series / Automatiserad detektion avintron i TV-serier

Media consumption has shown a tremendous increase in recent years, and with this increase, new audience expectations are put on the features offered by media-streaming services. One of these expectations is the ability to skip redundant content, which most probably is not of interest to the user. In this work, intro sequences which have sufficient length and a high degree of image similarity across all episodes of a show is targeted for detection. A statistical prediction model for classifying video intros based on these features was proposed. The model tries to identify frame similarities across videos from the same show and then filter out incorrect matches. The performance evaluation of the prediction model shows that the proposed solution for unguided predictions had an accuracy of 90.1%, and precision and recall rate of 93.8% and 95.8% respectively.The mean margin of error for a predicted start and end was 1.4 and 2.0 seconds. The performance was even better if the model had prior knowledge of one or more intro sequences from the same TV series confirmed by a human. However, due to dataset limitations the result is inconclusive. The prediction model was integrated into an automated system for processing internet videos available on SVT Play, and included administrative capabilities for correcting invalid predictions. / Under de senaste åren så har konsumtionen av TV-serier ökat markant och med det tillkommer nya förväntningar på den funktionalitet som erbjuds av webb-TVtjänster. En av dessa förväntningar är förmågan att kunna hoppa över redundant innehåll, vilket troligen inte är av intresse för användaren. I detta arbete så ligger fokus på att detektera video intron som bedöms som tillräckligt långa och har en hög grad av bildlighet över flera episoder från samma TV-program. En statistisk modell för att klassificera intron baserat på dessa egenskaper föreslogs. Modellen jämför bilder från samma TV-program för att försöka identifiera matchande sekvenser och filtrera bort inkorrekta matchningar. Den framtagna modellen hade en träffsäkerhet på 90.1%, precision på 93.8% och en återkallelseförmåga på 95.8%. Medelfelmarginalen uppgick till 1.4 sekunder för start och 2.0 sekunder för slut av ett intro. Modellen presterade bättre om den hade tillgång till en eller fler liknande introsekvenser från relaterade videor från sammaTV-program bekräftat av en människa. Eftersom datasetet som användes för testning hade vissa brister så ska resultatet endast ses som vägledande. Modellen integrerades i ett system som automatiskt processar internet videos frånSVT-Play. Ett tillhörande administrativt verktyg skapades även för att kunna rätta felaktiga gissningar.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-269419
Date January 2020
CreatorsRedaelli, Tiago, Ekedahl, Jacob
PublisherKTH, Medicinteknik och hälsosystem
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-CBH-GRU ; 2020:005

Page generated in 0.2412 seconds