The term “deepfakes” refers to media content that has been manipulated using deep learning. This thesis project seeks to answer the question of how well humans are able to detect deepfakes. In particular, the project compares people’s ability to detect deepfakes between two different deepfake categories; face swap and lip sync. In order to achieve this, a perceptual user test was performed, in which 30 participants were given a number of lip sync, face swap and unaltered videos and were asked to classify which of them were unaltered and which of them were manipulated using deepfake technology. These results serve to fill in the gap in knowledge regarding perceptual user tests on deepfakes, for which only a small amount of research has been made. The results also serve to shed light on which types of deepfakes pose the biggest threat regarding the problem of malicious impersonation. The main conclusion from this study was that lip sync is likely harder for humans to detect than face swap. The percentage of correct classifications of lip sync videos was 52.7%, and the percentage of correct classifications of face swap videos was 91.3%. / Deepfakes är videor som har blivit manipulerade med hjälp av deep learning. Detta examensarbete utforskar huvudsakligen två olika kategorier av deepfakes, dessa två är: face swap och lip sync. Syftet med projektet är att svara på frågan: Hur bra är människor på att se om en video innehåller deepfakes eller inte? Dessutom ställs frågan: Vilken typ av deepfake mellan face swap och lip sync är svårare för människor att märka av? För att svara på dessa frågor genomfördes en användarsudie där 30 deltagare fick titta på ett antal lip sync, face swap och icke-manipulerade videor, och fick sedan försöka avgöra vilka av dom som var manipulerade och vilka som inte var manipulerade. Resultaten från den här studien hjälper till att fylla kunskapsklyftan som finns angående människors förmåga att upptäcka deepfakes, där bara en väldigt begränsad mängd studier finns. Resulaten kan också användas för att peka ut på vilka typer av deepfakes som utgör större hot angående lurendrejeri. Slutsatsen från studien var att lip sync är troligtvis svårare för människor att märka av än face swap, eller åtminstone för datasetet FakeAVCeleb. Andelen korrekta gissningar för lip sync videorna i studien var 52.7%, medan andelen korrekta gissningar för face swap var 91.3%.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-337273 |
Date | January 2023 |
Creators | Sundström, Isak |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:561 |
Page generated in 0.0021 seconds