Global ETD Search

Return to search

Förmågan att genomskåda en röstklon : Faktorer som påverkar genomskådning av AI-genererade röstkloner / The ability to see through a voice clone

I takt med att maskininlärning utvecklats under senare år har skapandet av så kallade deep fakes, falsk media skapad med denna teknik, oftast video eller bilder, blivit lättare. Röstkloner är ett ämne inom talteknologin som kan sägas vara motsvarigheten för deep fakes för röster. Tidigare studier har redovisat nya tekniker för att använda neurala nätverk för att återskapa trovärdiga kloner av människors röster, men få studier har gjorts på de perceptionella faktorerna hos en människas förmåga att avgöra äktheten hos kloner. Vi gjorde därför en studie med en manlig och en kvinnlig röstklon där deltagare som var bekanta med talarnas röster sen tidigare fick avgöra äktheten hos en serie klipp varibland röstkloner var inkluderade. Frekvensomfånget begränsades i klippen i olika utsträckning för att undersöka om det fanns ett samband mellan omfången och deltagarnas förmågor. Resultaten av undersökningen visar att frekvensomfången inte hade någon statistiskt signifikant påverkan och att de avgörande faktorerna istället var prosodi och förekomsten av artefakter i ljudklippen. Däremot fanns det en betydlig skillnad mellan framgången att genomskåda den manliga röstklonen gentemot den kvinnliga, där deltagarna i större utsträckning genomskådade den manliga. / As machine learning has advanced in later years the creation of deep fakes, fake media created using this technology, most often video or images, has become easier. Voice cloning is a subject in speech technology that can be said to be the equivalent of deep fakes for voices. Earlier studies have proposed new techniques to use neural networks to create believable clones of human voices, but few studies have been made concerning the perceptual factors of the human ability to discern the authenticity in voice clones. Therefore we made a study with one male and one female voice clone where participants familiar with the speaker’s voices determined the authenticity of a series of clips wherein voice clones were included. Different frequency ranges were applied in order to analyse if there was a correlation between the frequency ranges and the participants’ abilities. The results of the study show that the frequency range did not make a statistically significant difference and that the determining factors instead were prosody and artefacts in the sound clips. However, there was a significant difference between the success of detecting the male and female voice clone, where the participants more frequently detected the male voice clone.

http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-279344

Media and Communication Technology

Medieteknik

Identifer	oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-279344
Date	January 2020
Creators	Dalman, Gabriella, Hedin, Jonathan
Publisher	KTH, Skolan för elektroteknik och datavetenskap (EECS)
Source Sets	DiVA Archive at Upsalla University
Language	Swedish
Detected Language	Swedish
Type	Student thesis, info:eu-repo/semantics/bachelorThesis, text
Format	application/pdf
Rights	info:eu-repo/semantics/openAccess
Relation	TRITA-EECS-EX ; 2020:263

Page generated in 0.0022 seconds

Förmågan att genomskåda en röstklon : Faktorer som påverkar genomskådning av AI-genererade röstkloner / The ability to see through a voice clone

Description

Links & Downloads

Tags

Additional Fields