I takt med att maskininlärning utvecklats under senare år har skapandet av så kallade deep fakes, falsk media skapad med denna teknik, oftast video eller bilder, blivit lättare. Röstkloner är ett ämne inom talteknologin som kan sägas vara motsvarigheten för deep fakes för röster. Tidigare studier har redovisat nya tekniker för att använda neurala nätverk för att återskapa trovärdiga kloner av människors röster, men få studier har gjorts på de perceptionella faktorerna hos en människas förmåga att avgöra äktheten hos kloner. Vi gjorde därför en studie med en manlig och en kvinnlig röstklon där deltagare som var bekanta med talarnas röster sen tidigare fick avgöra äktheten hos en serie klipp varibland röstkloner var inkluderade. Frekvensomfånget begränsades i klippen i olika utsträckning för att undersöka om det fanns ett samband mellan omfången och deltagarnas förmågor. Resultaten av undersökningen visar att frekvensomfången inte hade någon statistiskt signifikant påverkan och att de avgörande faktorerna istället var prosodi och förekomsten av artefakter i ljudklippen. Däremot fanns det en betydlig skillnad mellan framgången att genomskåda den manliga röstklonen gentemot den kvinnliga, där deltagarna i större utsträckning genomskådade den manliga. / As machine learning has advanced in later years the creation of deep fakes, fake media created using this technology, most often video or images, has become easier. Voice cloning is a subject in speech technology that can be said to be the equivalent of deep fakes for voices. Earlier studies have proposed new techniques to use neural networks to create believable clones of human voices, but few studies have been made concerning the perceptual factors of the human ability to discern the authenticity in voice clones. Therefore we made a study with one male and one female voice clone where participants familiar with the speaker’s voices determined the authenticity of a series of clips wherein voice clones were included. Different frequency ranges were applied in order to analyse if there was a correlation between the frequency ranges and the participants’ abilities. The results of the study show that the frequency range did not make a statistically significant difference and that the determining factors instead were prosody and artefacts in the sound clips. However, there was a significant difference between the success of detecting the male and female voice clone, where the participants more frequently detected the male voice clone.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-279344 |
Date | January 2020 |
Creators | Dalman, Gabriella, Hedin, Jonathan |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | Swedish |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2020:263 |
Page generated in 0.0022 seconds